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Avant-propos 


Ce court recueil procède à une revue de diverses méthodes statistiques ap- 
plicables à la génétique. Cette seconde science nous permet, mieux que nulle 
autre, de faire connaissance de la pensée probabiliste. Dans l’histoire de la sta- 
tistique, la génétique a souvent été à l’origine d’idées nouvelles importantes. 
Nous livrons ici aux lecteurs dotés d’une formation mathématique quelques 
exemples tirés de cette discipline biologique dont les concepts sont définis au 
fur et à mesure de leur introduction. Aucune connaissance biologique préalable 
n’est donc nécessaire à la lecture de cet ouvrage. 

Les lecteurs biologistes pourront eux aussi découvrir des modèles statis- 
tiques dans un contexte familier, mais il leur faudra posséder un certain niveau 
de connaissances mathématiques, ou faire preuve d’une réelle assiduité. 

Les questions traitées dans les pages qui suivent constituent une sélection 
personnelle et ne prétendent pas à l’exhaustivité. Nous avons notamment laissé 
de côté l’analyse des données d’expressions géniques (4 microarray »). De nom- 
breux livres récents expliquent ce sujet de manière détaillée. 

Cet ouvrage se fonde sur un cours de master (troisième ou quatrième année 
universitaire) que j'ai donné plusieurs fois à l’École polytechnique fédérale de 
Lausanne et à des étudiants en mathématiques, en informatique et en bio- 
informatique. 

Les exercices à la fin des chapitres ont été élaborés par Andrei Zenide, 
Sandro Gsteiger, Sahar Hosseinian et Jean-Marc Nicoletti. 


Lausanne, le 15 avril 2008 
Stephan Morgenthaler 
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Chapitre 1 


Introduction 


La génétique est la science de la transmission des caractères héréditaires 
dans des populations d’êtres vivants. Elle occupe une place centrale au sein des 
sciences biologiques. 

Les faits suivants représentent des points marquants dans le développement 
de la génétique : la publication de l’ouvrage de Ch. Darwin (On the origin of 
species by means of natural selection, London, John Murray, 1859), celle de 
l’article de G. Mendel intitulé Versuche über Pflanzen-Hybriden (1865), lex- 
traction d'ADN (acide désoxyribonucléique) de globules blancs (J.F. Miescher, 
1869), l'observation du comportement des chromosomes lors de la division cel- 
lulaire par Th. Boveri (1888), la découverte portant sur le fait que les facteurs 
de Mendel sont liés physiquement aux chromosomes (Th. Boveri et W. Sutton, 
1902), la découverte démontrant que la structure chimique de PADN pourrait 
en faire une substance porteuse de l'information génétique (F.H.C. Crick et 
J.D. Watson, 1953), le séquençage de la totalité du génome humain par une 
association internationale de chercheurs (Nature et Science, février 2001, voir 
aussi www.ornl.gov/sci/techresources/Human_Genome/home.shtml). 

L'intérêt pour la génétique humaine est aujourd’hui extrêmement vif et les 
sciences du vivant sont perçues comme le moteur du développement futur de 
nos sociétés. Le fonctionnement de tout organisme vivant est fondé sur les 
gènes. Grâce à la collaboration entre gènes, il existe une richesse incroyable de 
propriétés et de fonctions. Une compréhension approfondie des propriétés des 
gènes est indispensable si nous souhaitons guérir les organismes des maladies, 
les protéger de dangers environnementaux, diagnostiquer des dysfonctionne- 
ments, etc. 

Bien que certains caractères tels que le groupe sanguin soient déterminés 
par des facteurs purement génétiques, d’autres ne le sont que partiellement ou 
même pas du tout. Même si deux individus sont génétiquement identiques, ils 
ne le sont pas dans leurs comportements sociaux, leurs intérêts culturels, et 
même au niveau de leurs physiologies. 

La diversité génétique entre humains n’est, dans un certain sens, pas très 
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importante. Nos génomes sont identiques à 99,9 %. Et pourtant, la statistique 
s'intéresse avant tout aux différences. Elle essaie de comprendre l’origine de la 
différence entre les individus ainsi que son impact. 


1.1 Données génétiques 


Les données issues d’une étude génétique sont très variées. Les caractères 
que l’on observe sur un individu tels que sa taille, la couleur des yeux ou la pré- 
sence d’une maladie sont des variables phénotypiques, tandis que l’information 
interne et héritable d’une cellule est génotypique. Les variables biochimiques 
telles que la concentration d’une protéine dans le sang, la présence d’une mu- 
tation sur l'ADN ou la concentration de microorganismes dans un échantillon 
d’eau sont des biomarqueurs. La liste suivante donne quelques exemples de 
variables ou biomarqueurs qui peuvent se présenter dans une étude : 


— un caractère complexe, tel que la production laïtière d’une vache; 

— un biomarqueur simple, tel que le groupe sanguin ; 

— le génotype par rapport à un groupe de gènes, c’est-à-dire les allèles dont 
un individu est porteur ; 

— le taux d’activité d’un ou de plusieurs gènes, mesuré dans un échantillon 
de tissus provenant d’un organe ; 

— une séquence d'ADN; 

— les relations familiales d’un ensemble d’organismes. 


Les mesures sont effectuées parfois au moyen de cultures de cellules (in 
vitro) et parfois avec des cellules prises sur des individus (in vivo). Dans le 
second cas, les individus peuvent former un échantillon sélectionné au hasard 
parmi une population. Dans d’autres situations, il s’agit d'individus ayant des 
relations familiales et une généalogie connue. 


Parmi les objectifs de l'analyse statistique des données génétiques, on trouve 
les suivants : 


— trouver des associations entre phénotypes et génotypes, par exemple, des 
facteurs de risque génétiques ; 

— déterminer l’arrangement d’un ensemble de gènes sur un chromosome 
(« physical mapping» en anglais) ; 

— élucider la liaison évolutive entre espèces ; 

— identifier les dispositions génétiques sources de maladies ; 

— déterminer la fonction d’un gène dans les processus cellulaires ; 

— modéliser le processus à l’origine des mutations ; 

— décrire l’interaction entre gènes. 


Les données et les questions étant très variées, les méthodes statistiques 
utilisées dans l’analyse de telles données le sont aussi. La génétique a souvent 
été à l’origine de nouvelles méthodes statistiques. Ce petit livre en détaillera 
quelques-unes. 
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1.1.1 Expérience de Mendel 


Pour analyser de manière scientifique la transmission de phénotypes d’une 
génération à l’autre, G. Mendel à effectué des expériences avec des plantes pi- 
sum sativum (petit pois). Les phénotypes qu’il choisissait étaient, entre autres, 
l'apparence (lisse ou ridée) et la couleur (jaune ou verte) des graines. En croi- 
sant de multiples fois des plantes qui produisaient des graines lisses ou ridées, il 
a, par selection, produit des plantes pure-souche du type « lisse » et « ridée ». 
Ces plantes formaient la génération parentale P, de l’expérience génétique de 
Mendel. Il à ensuite créé des plantes hybrides en croisant une plante lisse avec 
une plante ridée. Ces hybrides sont les descendants F1, la première génération 
filiale. Mendel à observé que leurs graines étaient toutes lisses. En 1865, la théo- 
rie génétique contemporaine affirmait que, dans la fécondation, les caractères se 
mélangeaient. Interprétée de manière naïve, cette théorie était en contradiction 
avec les résultats de Mendel, car les plantes F; étaient d’un seul et unique type. 


Mendel souhaitait voir plus clair et a poursuivi ses expériences en croisant 
les plantes de la population F;. En faisant ainsi, on obtient la génération F2 et 
à ce stade, les deux types parentaux, lisse et ridée, réapparaissent. En chiffres, 
la génération F2 a produit 5474 graines lisses et 1 850 graines ridées, ce qui 

1 


: PRES 
correspond au rapport de cotes de 74,74 % : 25,26 % ou bien % : 3. 


Pour modéliser cette expérience, nommons À le facteur qui cause le carac- 
tère « graines lisses » et a le facteur qui cause le caractère « graines ridées ». 
Pour évaluer dans quelle proportion les facteurs a et À étaient représentés dans 
les plantes F>, Mendel à pratiqué des autofécondations. Les plantes F2 étant 
munies du caractère « graines ridées », les descendants possédaient dans tous 
les cas ce même caractère, ce qui démontrait que ces plantes ne contenaient pas 
le facteur À. L’autofécondation de plantes F2 de caractère a montré un autre 
résultat. Parfois, tous les descendants possédaient le caractère « graines lisses » 
et, parfois, ils étaient des deux types. Parmi ses plantes à caractère « graines 
lisses » de la génération F2, Mendel a observé 193 hybrides pure-souche À et 
372 hybrides mixtes À et a. Cela correspond au rapport 34,16 % : 65,84 % ou 


bien i : 2. Parce que à des plantes F2 avaient le caractère « graines lisses », 
ce résultat montre que î des plantes F2 étaient pure-souche a et ? étaient des 


hybrides mixtes. 

Les conclusions de G. Mendel étaient les suivantes. Premièrement, trois 
types de plantes existent dans la génération F,, pure-souche À, pure-souche a 
et Aa mixte. Parce que les descendants des plantes mixtes peuvent être aussi 
bien À que a, elles doivent être porteuses des deux facteurs a et À. Dans un souci 
de cohérence, il faut postuler que les plantes pure-souche contiennent également 
deux copies des facteurs, mais deux fois le même, AA ou aa. Deuxièmement, 
les trois types de plantes étaient présents en proportions presque exactement 
égales à : : ; | 1. Si l’on suppose que les deux facteurs d’une plante peuvent 
se séparer durant la formation d’ovules et de pollens, on obtient le schéma de 
la figure 1.1. On constate que les plantes de la génération F1 sont toutes du 
type mixte Aa. Leurs descendants sont avec probabilité i du type AA, avec 
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Pi AA aa 
gamètes 
A 
F; Aa 
pollen ovules 
A a 

À AA Aa 
PF 75% lisses : 25% ridées 

a Aa aa 


Figure 1.1 — Ce schéma décrit les expériences génétique de G. Mendel et fournit en 
même temps une explication des résultats. 


probabilité également 1 du type aa et avec probabilité 5 du type Aa. Ces 
chiffres expliquent à merveille les observations de G. Mendel. 


Exemple 1.1 Wendel a également pratiqué des expériences avec deux carac- 
tères. D'un côté, l’apparence des graines et, de l’autre côté, leur couleur. En 
croisant une plante à graines lisses et jaunes avec une plante à graines ridées 
et vertes, il a constaté que les plantes de la génération F1 sont des plantes à 
graines lisses et jaunes. En effectuant des autofécondations de telles plantes F1, 
Mendel a obtenu 315 plantes à graines lisses et jaunes, 108 à graines lisses et 
vertes, 101 à graines ridées et jaunes et 32 à graines ridées et jaunes. Comment 
expliquer ces chiffres ? 
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1.1.2 Test de Pearson 


La méthodologie developpée par K. Pearson pour tester si une classification 
de n objets dans k types peut être expliquée par une répartition théorique 
est liée aux données de Mendel. Les expériences de Mendel ont résulté en une 
classification de n = 565 = 193 + 372 plantes dans deux classes qui ont des 
probabilités théorique de 3 et 2. Pour tester si les données sont en accord avec 
la théorie, K. Pearson à proposé la statistique du khi-deux 


._ E.)2 
S = cet (1.1) 
=] 4 


k 
î—= 
ou O,; est le nombre d’objets du i* type et E; = np; le nombre espéré sous la 
théorie. La statistique S est une variable aléatoire. Si l'hypothèse nulle 


H, : probabilité de l’i° classe = p; (i—1,2,...,k) 


est vraie, le résultat de la classification observée se situe dans un intervalle 
raisonnable autour de la classification théorique. Sous cette condition, la loi de 
S'est approximativement une loi khi-deux avec k — 1 degrés de liberté. C’est 
ce qu’on appelle la loi nulle de ce test. 

Dans l’exemple, on trouve 


__ (193—565/3)? , (372—2x565/3)? 
S 565/3 L 1130/3 = 0,173. 





Cette valeur correspond au quantile 0, 322 de la loi khi-deux avec un seul degré 
de liberté, x{. Si on suppose que la répartition théorique soit la vraie répartition, 
l'événement S = 0,173 n’est donc pas du tout surprenant et montre que l’accord 
entre les données et la théorie de Mendel est tout à fait satisfaisant. 

Si la théorie est fausse, la valeur de S' devient grande car O; et E; peuvent 
être assez différents. On dit qu’une valeur de S est significative, si 


p-valeur = P(X > $) < 0,05, 


ou X + y?_, suit la loi nulle. Cela se produit lorsque S est loin dans la queue 
de la distribution x?_.. 


1.1.3 Gènes, allèles, phénotypes et génotypes 


Mendel appelait les causes génétiques des facteurs. Aujourd’hui, on les ap- 
pelle gènes. Les caractères que Mendel choisissait sont appelés des phénotypes. 
Les copies des facteurs sont les allèles. Le mot allèle est utilisé pour indiquer 
deux choses. D’une part, un allèle est tout simplement une copie d’un gène. 
Ainsi, chaque individu est porteur de deux allèles chacun de nos deux parents 
nous à transmis un gène. D'autre part, le mot allèle signifie une variante d’un 
gène. Si j'ai le groupe sanguin O, par exemple, je sais que mes deux allèles 


6 Génétique statistique 





du gêne ABO sont deux fois de la variante O. Deux allèles ne sont donc pas 
forcément égaux et si l’on a deux allèles différents d’un gène, on les note par 
exemple À et a ou A1 et Ab, etc. 

Les gamètes sont le véhicule de la transmission du génome de la généra- 
tion parentale aux descendants. Les gamêtes ont une seule copie du matériel 
génétique, ils sont dits haploides. Un individu est créé par la fusion de deux 
gamètes et chaque cellule (sauf les gamêtes) contient donc deux copies de ma- 
tériel génétique. Une cellule normale avec deux copies est appelée diploide. La 
combinaison des deux variantes d’un gène que le descendant reçoit de ses pa- 
rents est appelée son génotype. Le génotype d’un individu, pour un gêne à deux 
variantes À et a, peut donc être soit AA, soit Aa, soit aa. Les deux types purs 
AA et aa sont dits homozygotes, l’autre étant dit hétérozygote. Par chance et 
par intuition, G. Mendel a choisi un gène dont le génotype a un effet immédiat 
et visible sur la plante adulte. L’apparence des graines est liée au génotype 
comme décrit au tableau suivant : 





génotype | phénotype 
aa ridé 
Aa, AA lisse 




















Parce que Aa est lisse, même si une copie du gène a est présent, on dit que 
lallèle a est récessif, tandis que l’allèle À est dominant. 


1.2 Modèles stochastiques 


La modélisation génétique fait appel de manière très naturelle à des pro- 
cessus aléatoires, car la sélection de deux gamètes avant leur union semble être 
une aventure pleine d’aléas. L’aléatoire joue un grand rôle tout d’abord dans 
la sélection des deux parents, ensuite — comme nous allons le voir plus tard 
— dans les détails de la construction des gamètes et, enfin, dans la vie quoti- 
dienne du nouvel être. Le modèle fondamental utilisé dans ce contexte est une 
simplification de la réalité, mais il est déjà assez riche. 


Exemple 1.2 Imaginons une population de taille constante, comprenant N in- 
dividus dont les générations ne se chevauchent pas, donc ayant un rythme de vie 
parfaitement cyclique tel que les plantes annuelles. Les gamètes produits par les 
individus d’une génération s'unissent de manière complètement aléatoire pour 
créer les individus de la prochaine génération. On peut décrire ce processus par 
un schéma d’urne (fig. 1.2). L'urne contient tous les allèles d’une génération, 
donc un total de 2N boules. La prochaine génération est créée en tirant avec 
remise 2N fois dans cette urne. Le processus stochastique qui en résulte est dit 
le processus de Wright-Fisher. 


D’autres effets naturels, à part le mélange des génotypes, ont un caractère 
aléatoire, par exemple l’influence de l’environnement sur un individu et une 
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génération F; génération F1 


sn 







2 tirages aléatoires 


avec remise 


aa @) 


aa : création d’un génotype de la 
prochaine génération 
N génotypes  2N gamètes on doit effectuer 2N 


tirages pour créer les 
N génotypes de F4: 


Figure 1.2 —- Chaque individu de la présente génération est représenté par les deux 
gamètes qu’il peut produire. Les individus de la génération suivante ont un génotype 
créé par tirage aléatoire parmi tous ces gamèêtes. Le schéma ci-dessus montre la créa- 
tion d’un individu à génotype AA lors du passage entre générations à et à + 1. Ce 
modèle simplifié de reproduction est nommé d’après $S. Wright et R. À. Fisher. 


population. Du fait de telles influences, des mutations se produisent dans le gé- 
nome d’un individu. De telles mutations peuvent être bénéfiques en protégeant 
l'individu, dommageables en produisant des maladies, ou bien neutres. Modé:- 
liser l'émergence de mutations dans un individu et leur répartition et survie 
dans une population fait donc appel à des processus stochastiques. 

Ces processus mutationnels peuvent également influencer la vie d’un indi- 
vidu. Dans le deuxième chapitre, nous étudierons le développement de tumeurs. 
Presque 90 % des patients qui souffrent d’une tumeur des poumons ont fumé. 
Mais seulement à peu près 10 % des fumeurs développent un tel cancer. Une 
explication de ces chiffres consiste à postuler un effet aléatoire assez important 
dans le développement de cette maladie. 


1.3 Exercices 


1. Dans son travail publié en 1865, Gregor Mendel à étudie la ségrégation de 
deux traits héréditaires de pois : la couleur (A jaune, a vert) et la forme 
(B lisse, b ridé). Ces génotypes différents donnent lieu à des phénotypes 
différents. Il à croisé le génotype AA, BB avec aa, bb, ce qui donnait une 
progéniture Fi constituée uniquement de hétérozygotes dans les deux 
loci. En croisant la génération F1 avec elle-même, il a obtenu pour la 
génération F2 les fréquences suivantes : 
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couleur 

forme | AA | Aa | aa 
BB 38 60 | 28 
Bb 65 | 138 | 68 
bb 35 67 | 30 
































Donnez le tableau des probabilités théoriques des génotypes pour F3 et 
effectuez un test du khi-deux. 


(a) Soit un gène ayant n allèles A:,...,AÀ,. Combien de génotypes dif- 
férents sont-ils possibles (dans le cas d’un organisme diploïde) ? 


b) Généralisez le résultat au cas de M gènes avec n1,...,n allèles 
EA 9 1 
respectifs. 


. Les génotypes des descendants d’un individu, pour un gène diploïde ayant 
2 allèles À et a, sont soit AA, soit Aa, soit aa. Imaginons que deux parents, 
chacun avec le génotype hétérozygote Aa, aient un descendant. 


(a) Donnez tous les génotypes possibles du descendant et leurs proba- 
bilités. 

(b) Soit A— l'événement que le descendant aie au moins une copie de 
lallèle À. Calculez la probabilité de A—. 


(c) Considérons trois descendants des parents ci-dessus. 


i. Montrez toutes les combinaisons de génotypes possibles et cal- 
culez leur probabilité. 


ii. Quelle est la probabilité d’avoir deux génotypes ÀA— et un aa 
parmi ces descendants ? 


(d) Quelle la probabilité que, parmi douze descendants, 9 génotypes A— 
et 3 génotypes aa soient représentés. 


. Dans une expérience, Charles Darwin a croisé des fleurs homozyogotes à 
forme normale avec des homozygotes à forme irrégulière. Toutes les fleurs 
obtenues étaient normales. Ensuite, il a croisé les fleurs F entre elles et a 
trouvé 78% normales et 22% irrégulières. Comment expliquer ce résultat ? 


Chapitre 2 


Carcinogenèse 


Les maladies cardio-vasculaires et le cancer sont les causes de décès les plus 
importantes dans beaucoup de pays développés. Chez les hommes, le cancer de 
la prostate, le cancer du poumon et le cancer du côlon et du rectum sont les 
plus fréquents. Chez les femmes, la liste contient le cancer du sein, le cancer 
du poumon et le cancer du côlon et du rectum. Le cancer le plus mortel est le 
cancer du poumon. Certains aspects physiologiques du cancer sont bien connus. 
Les cellules cancerigènes sont différentes des cellules normales. Elles sont dites 
néoplasiques. Leur croissance est dérégulée et elles formes des tumeurs. Il est 
possible de provoquer la création de certains cancers par un traitement de 
rayons UV ou gamma, par des infections virales, par l’exposition à certaines 
substances chimiques, etc. La forme néoplasique de la cellule se transmet aux 
cellules descendantes lors d’une division cellulaire. Pour que cela se produise, le 
génome de ces cellules malades ne doit pas être le même que celui des cellules 
normales. Le développement de cette maladie se fait donc au niveau cellulaire 
et touche d’une façon ou d’une autre la machine génomique de la cellule. L’im- 
portance des mutations dans le développement de tumeurs est démontrée par 
le fait qu’un bon nombre de substances mutagènes induisent la formation de 
tumeurs. En conclusion, il semble presque certain que les tumeurs sont dues à 
une déformation (mutation) du génome cellulaire. 


Le cancer est également réputé être une maladie génétique dans un autre 
sens. Il semble que certains cancers arrivent fréquemment dans certaines fa- 
milles et presque jamais dans d’autres. Ce phénomène d’une composante du 
risque qui est de nature familiale semble indiquer que certains allèles soit pro- 
tègent soit sont dommageables pour l'individu. 


Dans ce chapitre, nous allons découvrir des modèles stochastiques qui dé- 
crivent la naissance d’une tumeur dans un organe. Avec des données épidémiolo- 
giques qui comptent le nombre de cas en fonction de l’âge dans une population, 
on peut ajuster les paramètres de tels modèles et ainsi mieux comprendre les 
mécanismes de la carcinogenèse. 
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2.1 Modèles à une frappe 


Les études sur la carcinogenèse ont pour origine des expériences sur les dan- 
gers de la radioactivité. Des souris exposées à des rayons gamma développaient 
une multitude de tumeurs, mais pas toujours les mêmes et pas toujours au 
même âge. Des modèles stochastiques pourraient expliquer ces résultats et ont 
été proposés depuis les années 1920. Si l’on postule qu’une particule gamma 
traversant le noyau d’une cellule peut amener une transformation permanente 
et héritable des propriétés de la cellule, on a le fondement d’une théorie. Si une 
seule frappe de ce genre suffit pour déclencher la maladie, on parle du modèle 
à une frappe ou bien du « one-hit model ». 

La transformation permanente du génome à laquelle ce modèle fait appel 
est aujourd’hui appelée mutation. Nous allons maintenant étudier ce qui se 
passe sous ce modèle, si le taux de mutations est constant dans le temps. Soit 
donc À le taux de mutations, par unité de temps et par cellule. L'interprétation 
habituelle d’un tel taux consiste à dire que si M(t) est égal au nombre de 
cellules mutées à l’âge t, alors 


M(t + dt) = M(t) + A(N — M(t)) dt + o(dt), (2.1) 


où N est le nombre de cellules de Porgane, N — M(t) est le nombre de cellules 
normales et o(dt) est un terme qui vérifie o(dt)/dt — 0 lorsque dt — 0. De 
(2.1) on déduit que M'(t) = X(N — M(t)) ou bien € In(N — M(t)) = —À. Sous 
condition initiale A1(0) = 0, la solution est 


m(N —M{t)) —= constante — Àt 
M(t) = N- e<°nstante e *t 
M(t) = N(1-e-*). 


Le traitement ci-dessus nous fournit uniquement le nombre moyen de cellules 
mutées. Pour des petites valeurs du taux À, ce nombre moyen augmente li- 
néairement, M(t) & NAt. Dans le contexte de la carcinogenèse, cette analyse 
est insuffisante, car d’autres questions sont plus importantes. On aimerait en 
particulière connaître la probabilité que l’organe échappe aux frappes. 

Soit S(t) la probabilité qu’un individu sujet à ce processus de transforma- 
tion n’ait pas développé la maladie jusqu’à l’âge t. Cette fonction est appelée 
fonction de survie. Cette fois, notre interprétation du taux À sera la suivante. 
Durant un intervalle de courte durée 0 < dt et dans un organe à N cellules 
normales, trois événements peuvent se produire : 


1. aucune cellule ne mute, avec probabilité 1 — NÀdt + o(dt); 
2. exactement une cellule mute, avec probabilité NX dt + o(dt); 
3. deux ou plusieurs cellules mutent, avec probabilité o(dt). 


Ces probabilités s’appliquent indépendamment de l’âge de l’individu. Pour la 
fonction de survie S(t), elles nous disent que 


SG + dt) = S(é)(1 — NX dt + o(dt)), (2.2) 
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car survivre sans aucune cellule mutée jusqu’à l’âge t + dt n’est possible que si 
l'individu ne possède aucune cellule mutée jusqu’à l’âge t et si aucune des N 
cellules subit une mutation dans l’intervalle (t, dt +t). Ces deux événements 
sont indépendants, ce qui veut dire que les probabilités se multiplient. Cela 
explique (2.2) et il en découle : 





© 5(t) = lim = NO) 


c’est-à-dire S(t) x exp(—NAt). La condition initiale S(0) = 1 nous amène à 
Sti=e PE. (50,120). (2.3) 


Le temps T' jusqu’à l’occurence de la première cellule mutée est appelé le temps 
de survie. Il s’agit d’une variable aléatoire (v.a.) qui vérifie P(T > t) = S(t) et 
dont la densité est f(t) = —S"(t) = NÂe-N\, Une telle v.a. est dite erponen- 
tielle avec paramètre NA. Nous indiquons ce fait en écrivant T + E(N À). Un 
calcul élémentaire montre que l’espérance et l’écart-type du temps de survie 
sont tous les deux 1/(NÀ). 

Par la même méthode, on peut également calculer l’espérance du nombre 
de cellules mutées. Si Z(t) est le nombre de telles cellules et M(t) = E(T(t)) 
son espérance, on à les probabilités conditionnelles suivantes : 


1. P(I(t + dt) = I(t)|[1(t)) = 1 — (N — I(t))À dt + o(dt) ; 

2. P(I(t + dt) = I(t) +117(t)) = (N — I(t))À dt + o(dt); 

3. P(I(t+ dt) > I(t) + k]1(t)) = o(dt) (k > 2). 
Cela décrit un processus Markovien, parce que, à part le nombre de cellules 
mutées J(t), aucune mention n’est faite du passé. Le fait que récemment une 
cellule à muté ou que depuis longtemps aucune mutation n’a eu lieu n’influence 
pas la probabilité qu’une mutation se produise dans l’instance à venir. Sous ce 


régime, on peut démontrer que le temps entre mutations suit une loi exponen- 
tielle. Pour l'espérance M{(t), on trouve 








Il 


M(t + dt) E(I(t + dt)) = E(E((I(t + dt) | I(4))) 
= E((N — I(#))Xdt(I(t) +1) + (1— (N — I(t))Adt) I(t) + o(dt)) 
) 


I( ) 
M(t) + XdE(N M(t) + N — M(t) — N M(t)) + o(dt). 





Il en découle que 


in M+ dt) - M 
dt—0 dt 





= (N- M(t))x. 


On retrouve donc (2.1), dont la solution, sous condition M(0) = 0, est 


M(t) = N(1 — exp(—}t)). 
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2.1.1 Survie et risque 


Soit T' la durée de vie jusqu’au moment de l’occurence de la première mu- 
tation. La fonction de répartition F(t) et la densité f(t) de la va. T sont 
liées à la fonction de survie par les formules F(t) = P(T <t) = 1 — S(t) et 
f(t) = dF/dt = —-dS/dt de la variable aléatoire T. Dans le modèle à une frappe 
à taux de mutation constant, T suit une loi exponentielle avec paramètre NX. 

Une autre description de l’occurence de cancers se base sur fonction de 
risque ou le taux d’incidences 

S(t) — S(t+ dt) d 


UT LE : 
QUES dt Ne ET) er 
(2.4) 


La formule montre que À(t) est le taux de mutation à l’âge t, sous condition de 
survivre jusqu’à t. Pour le modèle à une frappe, le risque est constant durant 
toute la vie de l'individu 











x) = Tim PEN) = exp(NA(E + di) 


= NA. 
dt—0 exp(—N X\t)dt d 





Pour construire un estimateur statistique du taux d'incidence, on doit dis- 
poser, d’un côté, d’un recensement de la population qui indique le nombre de 
personnes vivantes et, de l’autre côté, d’un registre de cancer qui contient des 
statistiques sur le nombre d’incidences. Le rapport 


nombre d’incidences de personnes entre 55 et 60 ans 





nombre de personnes vivantes entre 55 et 60 ans 


estime le risque sur une durée de cinq ans pour les personnes de 57 5 ans. 
Si on veut le risque annuel, il faut diviser par cinq. Le risque est ainsi estimé 
par les incidences relatives à la population à risque. Pour tester si le modèle à 
une frappe s’ajuste à des données, deux possibilités s’offrent. Le graphique de 
In(S(t) en fonction de l’âge t doit être linéaire. Le graphique de À(t) en fonction 
de l’âge, en revanche, doit être constant. 


Exemple 2.1 Le site wuw.cdc.gov/cancer/npcr/uscs/ est une bonne source 
de données sur la mortalité due à des tumeurs aux États-Unis. En principe, 
notre modèle concerne les incidences de la maladie et non pas les décès dus 
à la maladie. Toutes les incidences qui n'ont pas été fatales et toutes celles 
qui n'ont jamais été décernées ne figurent pas dans la statistique de mortalité. 
Néanmoins, il est utile de se faire une idée sur la base de la mortalité. La 
figure 2.1 illustre la mortalité en fonction de l’âge. Cette fonction est calculée 
en divisant le nombre de décès dus aux tumeurs à un certain âge par le nombre 
de personnes vivantes de cet âge. Elle correspond donc exactement à notre 
fonction de risque. 

Il est évident que le modèle à une frappe est beaucoup trop simpliste. Au lieu 
d’un risque constant, le cancer est une maladie qui se manifeste surtout entre 
les âges de 60 et 85 ans. 
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Figure 2.1 - Estimation du taux de mortalité dû à des tumeurs aux États-Unis. Les 
chiffres indiquent le nombre de décès par 100 000 hommes. 


Exemple 2.2 White et al., 1967, ont présenté des résultats sur la fréquence de 
tumeurs développées par des souris traitées à l’uréthane (Tab. 2.1). Le modèle 
exponentiel prévoit un taux d'incidence constant, indépendant de la durée du 
traitement. Il est évident que cela n’est pas vérifié, sauf dans les cas de dosages 


faibles. 


Les deux exemples montrent que le modèle à une frappe est simpliste. 


2.1.2 Modèles en temps discret 


On peut également présenter les modèles de la carcinogénèse en temps dis- 
cret. Cette approche semble assez naturelle car la division cellulaire est un 
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Table 2.1 - La première colonne montre la dose d’uréthane (une substance connue 
comme étant cancérigène) injectée à des souris. La première ligne compte les jours 
entre la première injection et le sacrifice des souris. Les entrées sont de la forme c/n 
où n est le nombre de souris et c le nombre de souris qui ont développé une tumeur. 





dose 8 12 16 20 24 
1,000 | 5/10 | 10/10 | 10/10 | 10/10 | 10/10 
0,500 | 7/10 | 10/10 | 9/10 | 10/10 | 9/9 
0,250 | 3/10 | 10/10 | 9/10 | 10/10 | 10/10 
0,125 |0/10 | 3/10 | 7/10 | 10/10 | 8/9 
0,0625 | 5/10 | 4/10 | 5/10 | 4/10 | 6/10 





























phénomène cyclique et la fixation de mutations dans le génôme de cellules est 
postulée comme étant à l’origine de la maladie. Supposons donc que chaque 
cellule effectue 7 divisions par an et que les cellules vivent de manière syn- 
chronisée. Dans ce cas, une cellule avec exactement t années de vie a effectué 
k = (tr) (arrondi vers le bas) divisions. Pour que le nombre N de cellules reste 
constant, il faut imaginer que, lors d’une division, une seule nouvelle cellule est 
créée et non pas deux. Au lieu de division cellulaire, il faudrait donc parler de 
remplacements. 

Le modèle à une seule mutation en temps discret a comme paramètre de 
base 

Pmut — P(une cellule mute lors d’une division). 


Ce paramètre but est le taux de mutations par division. Si l’on suppose que 
les N cellules de l’organe agissent indépendamment, on a : 


S(k) —  P(aucune cellule n’a muté après k divisions) 
= (1-p)"F = exp(Nkln(1 — p)) 
= 1 Nkp+(Nkp?/2 + N°k°p°/2) + o(Nkp*) 
= 1- Nkp+o(N°k?p), 
où S(k) est la fonction de survie qui s’applique aux cellules avec k divisions 


achevées et en attente de la (k + 1)°. 
Le risque d’une frappe entre ces deux divisions est 





S(k+1)+S() _, _ S(k+1) 


LT SE 





(2.5) 


d’où l’on obtient l’expression inverse 


RE =T 
s@) = [TG A0) 
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Le modèle à une frappe correspond à 


=(T — p}N&+1) + (1 pt 
Du Ten 


Dans une situation réaliste, Np est d'ordre 107% et le terme O(N?p°) est 
négligeable. Aux âges t — k/r, la fonction de risque vaut donc 


=1-(1-p)" = Np+O(Np). 





À(t) = Npr. 


En posant À = Pmut7, Cette fonction est égale au risque pour le processus en 
temps continu que nous avons discuté à la section 2.1. Pour avoir cette égalité, 
le taux de création de mutations par année doit être égal au produit du taux 
par division par le nombre annuel de divisions, ce qui semble logique. 


2.2 Modèle à multiples (m) frappes 


2.2.1 Modèles à deux frappes en temps continu 


Pour généraliser le modèle à une frappe, on peut considérer tout d’abord 
celui à deux frappes (« two-hit model»). Les deux frappes semblent être une 
idée naturelle pour la raison suivante. Supposons qu’un gène X joue un rôle 
clé dans la protection de la cellule contre le cancer. Pour inactiver X dans un 
individu qui possède deux copies de X, il faut au moins deux mutations, car 
les deux copies doivent être inactivées. Ces gènes protecteurs ont d’ailleurs été 
découverts pour certains cancers et ils sont appelés anti-oncogènes ou gènes 
suppresseurs de tumeurs. Notons l’allèle actif + et l’allèle inactif —. Diverses 
mutations du gène X peuvent l’inactiver et, en cancérologie, on ne parle donc 
pas d’une mutation particulière, mais plutôt d’une classe de mutations d’un 
certain effet. Si une cellule subit deux mutations inactivantes, le génotype ++ 
(les deux allèles sont actifs) d’une cellule peut être modifié en —-— (les deux 
allèles sont inactivés). 

Nous supposons que l’organe est composé de N cellules et que nous ap- 
pelions Z(t) le nombre de cellules qui ont été frappées une fois et qui ont le 
génotype hétérozygote +—. Comme auparavant, soit 


S(t) = P(aucune cellule — — n’existe à l’âge t) 
et 
S(t+ dt) = P(aucune cellule — — jusqu’à l’âge t 
et aucune création de cellule — — entre t et t + dt). 


Si l’on suppose que le mécanisme est Markovien, on peut à nouveau séparer la 
période de temps jusqu’à t et la période entre t et t + dt. On obtient ainsi la 
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formule suivante : 


S(t + dt) = S(t) x P (aucune cellule — — entre t et t + dt} 
aucune cellule — — jusqu’à l’âge t). 


Cette fois, la probabilité d’une création de cellules cancérigènes dépend de la 
valeur 7(t). En conditionant sur la valeur de J(t), on trouve 


P(une cellule — — est créée entre t et t + dt | I(t)) = AT(t)dt + o(dt), 


où À est le taux de mutation par allèle et par année. La substitution dans 
l'expression précédente donne 


S(t+dt) = S()E(1-— XI(tjdt + o(dt)) 
S()(1 — XE(I(t))dt + o(dt)). (2.6) 


De notre analyse du modèle à une frappe, nous savons que J(t) suit une loi de 
Poisson avec espérance Nt. Parce que, cette fois, À est le taux par allèle et 
que chaque cellule porte deux allèles, une cellule +— peut être créée de deux 
façons. Il faut donc multiplier NAt par deux pour obtenir E(J(t)). On a donc 





S(t+ dt) = S(t)(1 — 2N X'tdt + o(dt)) 


S(t+ dt) — S(t) >... o(dt) 
S(t)dt mer dt 


En prenant la limite lorsque dt — 0, on a 








d 
AE) = — 2 Im S(t) = 2N Vi — St) = HS (2.7) 
Le taux d’incidence de ce modèle à deux frappes est une fonction linéaire de 
Pâge t. 


Exemple 2.3 Si l’on suppose que la première mutation peut être distinguée de 
la seconde et que les deux taux sont distincts et égaux à À1 et }o, la formule 
devient 


X(#) =2N ot. 


Si l’ordre dans lequel les mutations se produisent est toujours le même, le fac- 
teur 2 n’est pas présent. 


2.2.2 Temps de survie 


Une troisième preuve des formules (2.3) et (2.7) pour la fonction de survie 
du modèle à une frappe se base sur une analyse du temps de survie des cellules 
individuelles. Soit T:,72,...,TN les temps de survie des cellules 1,2,...,N de 
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l'organe en question. Si le nombre de frappes nécessaires est égal à m = 1, le 
temps de survie de l’organe est 


T = min(T:,7, Ph , TN), 


car la première occurence dans l’une des cellules est suffisante pour déclencher 
la tumeur. 


Exemple 2.4 Pour une seule cellule, le temps jusqu’à l'occurence de la mu- 
tation est T; © E(X), c’est-à-dire que le temps T; suit une loi exponentielle et 
vérifie P(T, > t) = e-". De plus T\,...,Tn sont indépendants. Il en découle : 


St), =: P(T SE 
SAUT 
= PRE 

e NA. 


Pour généraliser cet argument au cas de deux frappes, il faut d’abord trouver 
les propriétés de T;, la durée de vie d’une cellule jusqu’à la deuxième frappe. 
Soit T2, T? les temps de survie des deux allêles de la cellule. Le temps jusqu’à 
la deuxième frappe vérifie 


Fer, 17): 


En supposant que les deux temps T£ et T? soient exponentiels et indépendants, 
la fonction de répartition de cette variable aléatoire est 


Et) = P(T<t) 

P(TÉ< ET? € t) 

= P(T<E)P(T <t 
(leo 


Il 


Pour la fonction de survie, on trouve 





Si(t)=1-F(t)=1-(1-e ") 22e Ne M Le M (2e), 


Pour des petits taux de mutations À, on peut utiliser le développement limité de 
la fonction exponentielle e = 1— + 22/2 +0(X2#?). En substituant dans 
la formule pour la fonction de survie, on obtient une expression plus simple 
Sit) = PT > t) = (1+Xt- X82/2)et. 

Le temps de survie de l’organe avec N cellules est à nouveau le maximum 
de N telles variables aléatoires indépendantes et sa fonction de survie vérifie 


SC) = (SO) = 6 VAL AE NA J)N 2 e-NAEN CAPE 2) 
En utilisant le développement limité 


In(1+x) =x-—x2/2+ o(x?), 
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on démontre la formule suivante : 
S(t) = eNAQNA-NAE/2-N NE /2 


—N)?t? 
= € 


L 


avec une erreur d'ordre o(X?t?). On constate que T; suit une loi de Weibull 
avec un taux d'incidence qui augmente linéairement avec l’âge —-£ In(S(t)) — 
2N t. 


Définition 2.1 Soit T une variable aléatoire positive. On dit que T' suit une 
loi de Weibull si la fonction de survie est de la forme 


S(t) = P(T >t)=exp(—(t/0)") m>0,b>0. 


La constante b est la durée de vie caractéristique et correspond au 63 %-quantile 
de la loi. 
La fonction de risque est —% In(S(t)) = mt"-1/(b"). 


Sous le modèle à deux frappes, le temps de survie d’un organe est Weibull avec 
m = 2. La durée de vie caractéristique est 


1/1\°2 

A\N ‘ 
Les quantiles du modèle à une frappe sont proportionnels à + et donc beau- 
coup plus petits. 


2.2.3 Modèle à m frappes en temps continu 


Dans le modèle général à multiples frappes, il faut m mutations se produi- 
sant toutes au taux À pour transformer une cellule normale en cellule cancé- 
rigène. Supposons que l’ordre des mutations soit fixé à l’avance, par exemple 
1 2 ce. m. Nous aurons besoin de la variable aléatoire 1;(t) 
qui compte les cellules ayant subi les mutations 1 jusqu’à j et son espérance 
M;(t) = E(I;(t)). En analogie avec (2.6), la fonction de survie vérifie : 





S( + dt) = S(t) (1 — Mm_1(t)Xdt + o(dt)) 


S(t + dt) — 5(t) 
Sat 


o(dt) 
dt 





= My-1(6)À + 





En passant à la limite, on a donc 


X(t) = XMm_i(t) et St) = exp (- L | Mnatudu). (2.8) 
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La dynamique des variables aléatoires I; est simple. Si l’on compare 1;(t-+dt) 
à 1;(t), il n’y a que deux possibilités si dt est petit. Soit Z;(t + dt) = I;(t) +1, 
soit T;(t + dt) = I;(t). L’espérance M,;(t) à son tour vérifie 


Mj(t+dt) = E(l;(t+dt)) 
= E(E(X;_1(6)dt (I;(t) +1) + (1 — Al;_1(#)dt) I;(t) + o(dt))) 


Il s'ensuit que 
AM;_1(t) 
t 

0 


À la naissance, aucune cellule portant une ou plusieurs mutations n’est présente 
dans l'organe et Mo(t) = N. La solution du système précédent est alors M,(t) = 
XNt/(5j!), tandis que le risque et la fonction de survie sont égaux à : 


À) = APNEM TL /(m—1)! et S(t) = exp(—X" NE" /m!). 


Les modèles à multiples frappes ont la forme assez simple de la courbe des 
incidences en fonction de l’âge. En prenant le logarithme, la forme de cette 
courbe est linéaire en log-âge : 


In(A(t)) = (m — 1) In(t) + constante. (2.10) 


Pour que le modèle à multiples frappes s’applique à des données, le graphique 
du logarithme de l’incidence en fonction du logarithme de l’âge devrait montrer 
approximativement une droite avec pente égale à (m — 1). 


Exemple 2.5 La figure 2.2 montre les données de l’exemple 2.1 sous l’optique 
du modèle à multiples frappes. Le graphique à l'échelle logarithmique ne contient 
pas une seule partie linéaire, mais plutôt deux. Jusqu'à trente ans, la pente est 
environ 1,5 (entre deux et trois frappes) ; après, elle s'accroît et sa valeur est 
environ 6 (sept frappes). Mais, il ne faut pas oublier que cet exemple concerne la 
mortalité due à toutes formes de cancer. On doit donc s'attendre à un mélange 
du nombres de frappes. 


Jusqu'ici, nous avons travaillé sous l'hypothèse que les mutations arrivent 
dans un seul ordre. Si les m frappes peuvent survenir dans un ordre quelconque, 
il faut multiplier À(t) (2.11) par le nombre d'ordres possibles (m!). La fonction 
de risque devient 


X(t) = mNXTEML et S(t) = exp (NAT) = 6e Mn), (2.11) 


Ce changement n’a aucun effet sur le graphique à l’échelle logarithmique. 
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Figure 2.2 - La mortalité de la figure 2.1 à l’échelle logarithmique. Aussi bien la 
mortalité que l’âge doivent être mis à cette échelle. 


On peut légèrement généraliser le modèle en supposant que les taux de 
mutation ne sont pas égaux. Soit À1,)2,..., À» les divers taux. Il est facile de 
deviner le résultat final 


À) =mNh.. ntm 


La figure 2.8 illustre les différences entre diverses valeurs de m. 


2.2.4 Modèle à deux frappes en temps discret 


À la naissance, l'organe consiste en N cellules à génotype ++. Les cellules 
font 7 remplacements par an et, lors de chaque remplacement, une mutation 
+ — — survient avec probabilité p par allèle. Soit l'événement 


A(k) = {aucune cellule — — n'existe après k cycles de remplacement}. 
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Figure 2.3 — Les quatre cellules contiennent les graphiques de la fonction de répar- 
tition, de la fonction de survie S(t) = e-NÀ"t", de la densité et de la fonction de 
risque. Les nombres de frappes sont m — 1,2,5 et 7. Les autres paramètres sont 


N=10"et À=1,6 x 10°, 4x 10 5, 4, 3 x 10% et 1 x 107%. 


La fonction de survie vérifie S(k) = P(A(k)). Pour la calculer, il faut compter 
le nombre de cellules hétérozygotes +—, porteuses d’une seule mutation. Soit le 
nombre de cellules hétérozygotes après k cycles Z(k). Parce que la probabilité 
p est typiquement très petite et N est grand, le nombre de nouvelles cellules 
hétérozygotes +— créées lors de chaque remplacement est proche d’une variable 
binomiale (1(k) — I(k—1) + B(N, 2p) et d’un cycle de remplacement à l’autre, 
ces variables sont indépendantes. Le facteur de 2 est créée par le choix entre les 
deux allèles. En connaissant le nombre de cellules hétérozygotes, la probabilité 
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conditionnelle de A(k), en sachant le nombre de cellules intermédiaires, vaut : 


OO ee 
SC US (EE EC PEER (2.12) 
(1 2 p) I(k—1)—1(k—2) , 


avec des exposants binomiaux indépendants. Cette formule se justifie par la né- 
cessité que les 7(1) cellules hétérozygotes créées lors du premier cycle doivent 
traverser les autres (4 — 1) cycles de remplacement sans mutations supplémen- 
taires. De même, les cellules créées lors de l’if cycle doivent traverser (k — à) 
cycles sans aucune mutation. La probabilité pour la deuxième mutation est 
égale à p, car un des allèles est déjà transformé et un seul choix reste. L’espé- 
rance E(P(A(k)|I(i), pour à = 1,...,k—1) fait appel à la fonction génératrice. 


Définition 2.2 Soit X une variable aléatoire discrète qui prend des valeurs en 


N—#{0,1,2,...}. La fonction 


bx(u) = E(u*) = D P(X = 
i=0 


est dite fonction génératrice. 


Pour les variables binomiales (7(k) — I(k — 1)), on a le résultat suivant : 


Lemme 2.1 Soit une variable aléatoire binomiale X + B(N,2p). Sa fonction 
génératrice est : 


bx(u) = E(u*) = (1—2p+u2p)" 
Preuve. La définition de l’espérance montre que 


N 


2 (7) ent 


1=0 
(1 — 2p +u2p)N 


Il 


E(u*) 


Il 


À l’aide de cette formule, le calcul de S(k) devient : 


S(k) = E(P(A(k)|I(i), i=1,...,k-—1)) 

px (ip) D) x x (1 p) ED) x 22 x bx(1 — p) 
= (1—-2p+2p(1-p} TN x + x (1— 2p+2p(1 —p))" 
[a — 2p + 2p(1 —p) 1) x (1—2p+2p(1—p} 2) x... 


Il 


N 
x (1 — 2p + 2p(1 — p)) 


Pour p petit, les facteurs de ce produit sont approchés par (1—2p+2p(1—p}}) = 
(1 — 2p + 2p(1 — jp)) + o(p?) = 1 — 2jp° + o(p?) pour j = 1,...,k—1. Sion 
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introduit cette simplification et en négligant tous les termes d'ordre p°, p{, etc. 
on à 


S&) = [(1—2(4&- 1)p?)(1— 2(k— 2)p?)...(1-2p)]" 
=: Me ee DE pes) 
= 1—-p'k(k—1)N. 


Le risque en fonction du nombre ce cycles de remplacements vaut donc 


S(k) — S(k+1 S(k+1 
Fe (k) ee. Er FE ) 
1—p?k(k+1N 
1— pk(k—1)N 
= 1—(1-p'Kk(k+1)N) (1+p°k(k— 1 N) 


Np° (k(k + 1) — &(k — 1)) = 2Nkp°. 








Dans ces formules, nous avons à nouveau négligé tous les termes en pÿ, p{, etc. 
et nous avons utilisé le développement limité 1/(1 — x) = 1+x+o(x). 
Exprimé en fonction de l’âge t = k/T on à h3 = 1 — EE Il en découle 


la formule 





Re = 2N(pr)°t + Np°r(r — 1), (2.13) 


essentiellement le même résultat que (2.7). 


2.3 Modèles à deux étapes 


La mortalité due à des cancers dans des populations humaines ne se conforme 
pas aux modèles à frappes multiples. Typiquement, la mortalité à des âges in- 
férieurs à 40 ans est quasi-nulle et augmente rapidement entre 60 et 80 ans. 
Cela implique d’une part une valeur assez élevée du nombre m de frappes, et 
d'autre part un très faible taux mutationnel À. Sous ces conditions, le modèle 
à multiples frappes ne peut pas obtenir une incidence de la maladie suffisam- 
ment élevée pour expliquer les risques observés dans la population humaine. 
De ces faits est venue l’idée que le comportement des cellules change avec l’âge 
et/ou que l'influence de facteurs externes dépend de l’âge (voir par exemple 
Armitage et Doll, 1954). Si les cellules intermédiaires dans le modèle à mul- 
tiple frappes étaient hyper-mutables (taux À élevé), on obtiendrait de meilleurs 
résultats. Une autre possibilité, confirmée par des observations cliniques, est 
un dérèglement par étapes de la croissance cellulaire. Dans un tel modèle, les 
cellules intermédiaires ont une croissance plus grande que normale, forment 
des tumeurs bénigne et peuvent accélérer le développement du cancer. Cette 
généralisation du modèle à multiples frappes à été proposée par Knudson et 
Moolgavkar sous le nom « modèle à deux étapes » : 
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cellule cellule cellule 
normale initiée néoplasique 


1"* étape : initiation 2° étape : promotion 


Figure 2.4 - Le modèle de la genèse du cancer en deux étapes. Avec une petit pro- 
babilité, une cellule normale peut se transformer en cellule initiée. Les cellules initiée 
sont différentes des cellules normales et la deuxième étape, qui crée la tumeur, se 
manifeste uniquement parmi les cellules initiées. 


— l'initiation : une suite de mutations transforme une cellule normale en 
cellule précancérigène ou dysplasique ; 

— la promotion : un changement génétique ou épigénétique (un changement 
héritable, mais non pas codé au niveau de PADN) ; cet événement trans- 
forme les cellules initiées en cellules néoplasiques et déclenche la tumeur. 

La figure 2.4 montre ce processus schématiquement. 


2.3.1 Initiation 


L’initiation est un processus à m frappes comme nous l’avons étudié. Le 
nombre de cellules initiées jusqu’à l’âge t, liit(t), suit une loi de Poisson 


Enit(t) = P ( ji | nid) 


Xinit(t) = MNAME LE MN (TP) = citt 1 (voir 2.9, 2.10). 


Le nombre de cellules initiées est ainsi un processus de Poisson à taux non 
homogène. 

Dans les cellules initiées, un ou plusieurs gènes régulateurs de mécanismes 
cellulaires sont inactivés, ce qui accélère la croissance de ces cellules et peut 
provoquer d’autres effets encore. Nous avons déjà noté une contradiction entre 
le concept du nombre constant de cellules N d’un organe et le fait que les 
cellules se divisent, ce qui produit, à partir d’une cellule parentale deux, et non 
pas une, cellules descendantes. Pour résoudre cette contradiction, la mort de 
cellules doit être postulée. Les seules cellules immortelles dans l’organe sont les 
cellules souches. Un modèle possible d’un organe consiste en cellules souches 
qui, par division, se recréent et donnent naissance à une nouvelle cellule normale 
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cellule normale 


cellule souche 


Figure 2.5 — Le diagramme montre un « cluster » de cellules maintenu par une cellule 
souche. Lors d’une division, la cellule souche (en noir) est remplacée par une nouvelle 
cellule souche et une cellule normale. Lors de la division d’une cellule normale, deux 
cellules normales sont crées. Le diagramme montre l’état après quatres divisions. Le 
« cluster » contient huit cellules de quatrième génération, quatre cellules de troisième 
génération et 2* cellules en tout, dont une cellule souche. Si les cellules normales on 
une durée de vie limitée, par exemple si les cellules de quatrième génération meurent 
au lieu de se diviser, un tel « cluster » est de taille constante. 


et mortelle. En se divisant, cette cellule normale crée deux cellules normales 
et ainsi de suite. Si les cellules normales meurent après un nombre fixe de 
divisions, alors chaque cellule souche maintient un « cluster » de taille fixe de 
cellules normales («4 turnover unit»). La figure 2.5 illustre ce processus. 

Pour que les cellules initiées ou précancérigènes puissent exercer leur effet 
néfaste, il faut soit supposer que l'initiation rend imortelle une cellule normale, 
soit que l'initiation n’a d’intérêt que si elle a lieu dans une cellule souche. 


2.3.2 Expansion clonale 


Durant la vie d’un individu, peu de cellules précancérigènes apparaissent et, 
selon la valeur du nombre de frappes m, leur apparition se limite à des âges assez 
élevés. Pour ne pas rendre l’incidence de la maladie quasi impossible, le modèle 
à deux étapes travaille avec l'hypothèse que les cellules précancérigènes ont des 
capacités nouvelles et différentes. Toute cellule initiée possède un phénotype 
de croissance accrue et anormale et créera donc autour d’elle-même un cluster 
de telles cellules, que l’on appelle une expansion clonale. Nous allons décrire 
cette croissance par deux paramètres, un taux de naissance G et un taux de 
mortalité 0. La condition 5 > ô sera synonyme de croissance. Une seule cellule 
initée est ainsi à l’origine d’une expansion clonale. 
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2.3.3 Expansion clonale en temps discret 


Toute cellule initiée commence une expansion clonale avec des cellules filles 
elles-mêmes initiées. Un modèle discret qui englobe une croissance plus rapide 
que les cellules normales est un processus de branchement où, lors de chaque 
division, les événements suivants sont possibles : 


2 cellules filles sont créées, avec probabilité b; 
0 cellule fille est créé, avec probabilité d = 1 — b. 


Cela signifie que la cellule meurt avec probabilité d = 1 — b ou se divise avec 
probabilité b. Si b > 1/2, l'espérance du nombre de cellules filles vaut 2b > 1 
ce qui implique une expansion. Le nombre de cellules dans l’expansion vaut : 








| génération 0 | génération 1 génération 2 génération 3 
| 1 C(1) —= Foi C2) = Fi + Fi ++ Fc etc. 

















où F;; est le nombre de cellules filles issues de la j° cellule de l’i° génération. On 
suppose que chaque cellule agit indépendamment des autres. Du fait de cette 
structure, l’analyse du processus est facilitée par l'introduction de fonctions 
génératrices (voir la définition 2.2). 

La fonction génératrice du nombre de cellules filles est 


Pr(u) = (1— b}u° + bu? = (1 — b) + bu”, 


un polynôme de degré 2. Elle est en même temps la fonction génératrice de 
C1), #ca)(u) = pr(u). En ce qui concerne C(2), on trouve 


bctu) = E(u°0®)) 


( 
= E(E(u°® |C())) 
= E(E(ur+" Het | C(1)) 
— E(br(u)°®)) (car F1, F2, indépendants) 
—  Or(or(u)) 
= (1—b)+bpr(u) = (1 — b) + b(1 — b + bu?)? 
= (1—6)+6(1—b)? + 282(1 — bju? + but 





un polynôme de degré 4. De cette manière, on démontre le résultat suivant : 


Proposition 2.1 Si une expansion clonale démarre avec une seule cellule et 
si les cellules de chaque génération meurent avec une probabilité 1 — b et se 
divisent avec une probabilité b, la fonction génératrice du nombre de cellules 
dans l’expansion à la génération k est 


cu) = Pc&-1(Pr(u)) = pr(br(br(---(br(u)):-:))), (2.14) 


où br(u) = 1—b+bu?, et il y a k fois le symbol pr. 
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Une question intéressante que l’on peut se poser est de savoir si l’expansion 
clonale continue ou si elle s’éteint. La définition 2.2 montre que px(u = 0) = 
P(X = 0). Évaluer une fonction génératrice en u = 0 donne ainsi la probabilité 
que la variable aléatoire correspondante soit zéro. Il s’ensuit que 


pr = P(C(Kk) = 0) = pr(pr(--:(pr(0))---)) 


et 
P(C(k +1) = 0) = pri = Pr(px). 


Cela montre que lorsque k — ©, p; tend vers un point fixe p de la fonction 
génératrice dr(u), c’est-à-dire une valeur telle que r(p) = p. 

Si #R(1) < 1, la seule solution valable est p = 1, c’est-à-dire que l’expansion 
s’éteint avec probabilité 1. Si 9, (1) > 1 en revanche, une solution p < 1 existe. 
Dans notre cas, #(1) = 2b > 1 = b > 1/2 et (1 — b) + bp? = p a comme 
solution soit p = 1, soit (1 — 4/1— 4b(1 —b))/(2b) = (1 — (2b — 1))/2b = 
(1—b)/b —6/b. 

On peut encore tirer d’autres renseignements de la définition 2.2. En prenant 
la dérivée, on constate que l’espérance d’une variable aléatoire X est donnée 
par ®',(1), car 


Pytu) = Si. P(X = ut. 


Dans notre cas, on a 
E(C(1) = dE (1) = 2%, E(C(2)) = #r(dr(1))#r(1) = (2b)° 


et en général E(C(k)) = (2b)*. La taille espérée du clone croît donc exponen- 
tiellement et double en moyenne chaque 


(20) >2— k > In(2)/In(2b) 


génération. Le tableau 2.2 montre quelques exemples. 


2.3.4 Expansion clonale en temps continu 


Les processus de branchement markovien en temps continu peuvent être 
décrits par les probabilités conditionnelles suivantes : 


C(x) +1, avec probabilité C(x)Bdx + o(dx) 
C(x + dx) = C(x) —1, avec probabilité C(x)ôdx + o(dx) 
C{x), sinon. 


où C(x) est le nombre de cellules filles qui existent en temps x. Le paramètre 
B > 0 est un taux de division et 4 > 0 est le taux de mortalité. Toutes les 
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Table 2.2 - Le tableau montre la probabilité qu’une expansion clonale survive et ne 
s’éteigne pas. La colonne de droite contient le nombre de divisions nécessaires pour 
doubler la taille du clône. 























probabilité de survie nombre de générations 
b d’une expansion clonale pour doubler 
0,505 0,02 70 
0,510 0,04 35 
0,515 0,06 24 
0,520 0,076 18 
0,550 0,18 8 
0,600 0,33 4 
cellules agissent de la même manière et au temps x = 0; une seule cellule 


initiée démarre le processus de croissance. L’espérance de C(x) vérifie 


E(C(x + dx)) = E((C(x) +1) C(x)Bdx + (C(x) — 1) C(x)ôdx 
+ C(x)(1 — C(x)Bdx — C(x)ôdx) + o(dx)) 
= E(C(x)) + (8 — 6) E(C(x)) dx + 0(dx). 


En simplifiant, on obtient le résultat final : 


d 
a E(C(G)) = (8 —6)E(C(x)) — E(C(x)) = ET 

En divisant l’intervalle [0, x] en [0, dx]U(dx, x], on peut déduire une formule 
pour la chance de survie de l'expansion clonale. Soit p(x) = P(C(x) = 0) la 
probabilité que le clone s’est éteint à l’âge x. On à 


px) = p(x — dx)[1 — (8 + 6)dx] + Bdxp(x — dx)? +6, 


car dans l'intervalle [0, dx], la cellule initiale peut survivre sans modification, 
se multiplier par deux ou s’éteindre. Si elle survit, la chance que le clône aie 
disparu à l’âge x vaut p(x—dx), si au moment dx le clône contient deux cellules, 
la probabilité devient p(x—dx)?, car les deux cellules agissent indépendamment. 
Si la cellule initiale meurt, la probabilité que le clône aie disparu à l’âge x vaut 
1. 

L’équation ci-dessus montre que 


p'(æ) = Bp(x)* — (8 + 6)p(x) + 6. 
La limite x = lim, p(x) vérifie donc 


Bn° — (8 + 6) +6 
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ou bien 





r-PTÔE (8 + 6)? — 480 
— 25 ; 
Les deux solutions sont 7 — 1 et x — 06/6. Si 5 > 0 





P(C(x) = 0) —— 6/6. 
T— 00 
La taille moyenne du clône croit exponentiellement, mais la probabilité qu’il 
s'éteint est non-nulle. 
Dans le modèle continu, 3 et ô ne sont pas des probabilités mais simplement 
des taux positifs. Pour les comparer avec les probabilités du modèle discret, il 
faut les transformer selon 


B — b=8/(8+6) 
ô — d—6/(B+à6). (2.15) 


On a 
lim P(C{(x) = 0) = 6/8 = d/b, 


TL 00 


car ce quotient est invariant sous la transformation (2.15). 
Pour comparer la taille du clône en modélisation discrète et en modélisation 
continue, il faut comparer 


EIC(x)] = 89% et E[C(k)] = (2b)* 
tout en transformant le second à l’échelle du temps en posant x = k/r. On a 
E[C(k)] = (2b)°7 = enCbar 


Parce que d = 1 — b, 2b = 1 — (d — b) et In(2b) = In(1 — (d — b)) = (b — d) + 
O((b — d)?), cela nous amène à 


E[C(k)] = e—d)er 
C(8-5)ar/(8+6). 


Cette formule donne une taille de clone comparable au modèle continu si B+0 — 
Te, 

L’inverse de 7, la longueur du cycle cellulaire, est égal à 1/(8 +6), le temps 
moyen que le processus de branchement en temps continu reste sans modifica- 
tion. 


2.3.5 Apparition de cellules néoplasiques dans 
une expansion clonale 


L'apparition de cellules néoplasiques n’est possible que dans l’expansion 
clonale déclenchée par une cellule initiée. Nous supposons que, lors de chaque 
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division d’une cellule dans l’expansion clonale, deux nouvelles cellules initiées 
sont créées avec probabilité 1 —r, ou bien une cellule néoplasique et une cellule 
initiée en résultent avec probabilité r > 0. La probabilité r est donc le paramètre 
de promotion au deuxième stage du modèle. 


Si au temps à une nouvelle cellule initiée est créée, quatre événements 
peuvent apparaître lors d’une courte période dx : 


— une cellule néoplasique et une cellule initiée naissent et cela avec proba- 
bilité r/Sdx + o(dx) ; 

— deux cellules initiées naissent avec probabilité (1 — r)Bdx + o(dx); 

— la cellule initiée meurt et expansion s’arrête avec probabilité 6dx+o(dx) ; 

— la cellule initiée continue à vivre sans changement avec probabilité (1 — 


(B + 6)dx) + o(dx). 


Dans une telle situation, on a le résultat suivant. 


Théorème 2.1 Les cellules créées lors d’un processus de branchement homo- 
gène avec taux de naissance B > 0 et taux de mortalité Ô < B peuvent se 
transformer avec probabilité 0 < r < 1 en cellule néoplasique lors de chaque 
naissance. En démarrant le processus avec une seule cellule au temps x = 0, 
la probabilité Scione(t) qu'aucune cellule n'ait changé à l’état néoplasique au 
temps x vaut : 


(C'p1/(p2 + C'p1) (1 _ ét + e-2t 
(C/(C +1) (—e-Ar) +e-Ar 





Sclone (x) on 





avec 


0O<A= (8-6) +4r85, —-1 < C = —(p2 +(1—r)8)/(p1 + (1—r)8), 


p1=(-8-6+A)/2, p2=(-8-6-—A)/2. 


Démonstration. L'idée consiste à découper l’intervalle [0, x] = [0, dx] U (dx, x]. 
Dans l'intervalle [0, dx], les quatre événements ci-dessus peuvent se produire et, 
dans l'intervalle (dx, x], l'expansion clonale se poursuit comme décrit aupara- 
vant. Il en découle que 
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Sclone(T) = (r8 dx + o(dx)) # «0, 


probabilité qu'aucune 
cellule cancéreuse 
ne soit présente dans 
le clone au temps x 


une cellule 
néoplasique apparaît 


+.  ((1=-r)Bdx+o(dr)) x (Scone(x — dx))? 
——— —] ——— —] 
la cellule initiée probabilité que si deux 
se divise cellules existent au temps 


dx ni l’une ni l’autre 
ne produise une cellule 
cancéreuse entre dx 


et x 
+ (Ô dx + o(dx)) x sl 
la cellule si la cellule meurt, l'expansion 


clonale s'éteint et ne donnera 
jamais naïssance à une 
cellule cancéreuse 


initiée meurt 











+ (1—(B+0)dx +o(dx)) x Sclone(T — dx) 
—— — —— — 
la cellule initiée probabilité qu’une cellule 
reste vivante initiée ne produise aucune 
cellule cancéreuse entre 
dx et x 
Se one — Se one E d. d 
ne Saone 0) Lg 0) ce (x — rh) 
dx e 
_ o(dx) _ o(dx) 
+ (5 T FR ) (cs T ô) T de Selone(T — dx). 
En passant à la limite, lorsque dx — 0, on obtient : 
ele) Ta (1 e r) B Set) » (8 + ô) Sclone(T) Ho (2.16) 


Si r < 1, cela est une équation différentielle du type Riccati. De telles équations 
peuvent être simplifiées en posant : 


Sclone(t) = —w'(x)/[w(x)(1— r) 8] 
et 
/ —uw"(x) _, _ (w'(x)}? 


cons) ni w(x)(1 = r) B L w(x)2(1 … r)5° 
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La substitution donne : 


—w"(x)  (w'(x)) w'(x)? (8 +6)u'(x) 


“O8 QG -n86 uQ}(-1n8 " v@Q-Nn6 


c’est-à-dire 





w"+(8+6)w" +(1-r)Bôw = 0, 


une équation linéaire d'ordre 2 à coefficients constants. La solution de cette 
dernière vaut : 
w(x) = B: eP1® + B2 eP2® ; 


où p; sont les racines des 
p°+(8+6)p+(1-—r)88=0 


et B1 et B2 sont des constantes quelconques. Le discriminant de cette équation 
quadratique vaut 


A? = (B+06) —486(1-— 7) = (8 — 6)? +4rB6. 


Soit À > 0, alors les deux racines de l’équation sont p1 = (—B — Ô + A)/2 et 
p2 = (—B — 8 — A)/2 < p1. La solution générale de (2.16) finalement est 


— Bip1 exp(p1t) — Bap2 exp(p2x) 
(B1 exp(pix) + Baexp(p2x)) (1 — r)8 


La valeur de r joue une rôle prépondérant. Si r = 0, les racines sont p1 = 
—Ô > p2 — —/f, et la seule solution de (2.17) qui vérifie la condition initiale 
Sclone(0) — 1 est Sclone(t) = 1. Si r = 1, les racines sont p1 = 0 > pa = 
—(8 + 6), mais dans ce cas (2.16) est une équation différentielle linéaire de 
1% ordre et la solution qui vérifie la condition initiale est Sclone(t) = (Ô + 
Bexp(—(8 + 6)x))/(8 + 6). Dans les deux cas, la limite lorsque x — de 
la fonction de survie est positive. Une expansion clonale n’amène donc pas 
forcément au cancer. 

Si 0 < r < 1, les coefficients B1 et B2 sont non nuls, sinon la condi- 
tion initiale n’est pas vérifiée. En multipliant numérateur et dénominateur par 
exp(—p1x)/B2, (2.17) s'écrit comme 


Séclone (x) = 





(2.17) 





— Cp1 — p2exp(—Ax) 
C+ expt-A))( = np 
Cp1(1 — exp(—Ax)) — (p2 + Cp1)exp(—Ax) 

C(1- r)8(1 — exp(—Ax)) + (C +1)(1-r)Bexp(—-Acx) ? 


Séclone (x) — 











où C — B;/B2. La deuxième forme met en évidence les limites lorsque x — 0 
et x — co. La condition initiale se traduit par la condition —(p2 + Cp1) — 
(C'+1)(1—-r)B, c'est-à-dire C = —(p2+(1—7r)8)/(p1 +(1—7r)8). En divisant 
le numérateur par —(p2 + Cp1) et le dénominateur par (C + 1)(1 — r)6, on 
obtient la formule du théorème. 
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La limite lorsque x — œ de Scione(t) est égale à (C + 1)p1/(p2 + Cp) et le 
complément 1 — lims;_s Sclone(t) = —AÀ/(p2 + Chp1) est égal à la probabilité 
qu’une expansion clonale ne conduise pas à un cancer. 

Les taux de mutation observés dans divers gènes et dans des populations 
humaines sont de l’ordre 3 x 107% par génération. Il est raisonnable de supposer 
que la probabilité r soit à peu près de la même taille. Pour des valeurs de r 
tellement petites, un développement des coefficients autour de r = 0 est utile. 
On obtient l’approximation suivante : 


S. PE) rBô/(8 La 6)? (1 — e—(8—5)e) 2 e-(8-ôê)æ 
dlene(t) DK rB2/(B = 6)? (1 _ e-(8-5)x) + 6-5 . 


Si r est près de zéro, la probabilité qu’un clone ne donne pas de cancer vaut 
8/B, ce qui n’est rien d’autre que la chance qu’une expansion clonale s’éteigne. 

La figure 2.6 illustre quelques exemples. Dans les trois cas montrés, la for- 
mule approximative est de très bonne qualité. Les paramètres 5 et Ô ont été 
choisis comme (5 — 1,15, d — 1,00), (8 = 9,2, 8 —8)et (8 — 8,15, d = 8, 00). 
Les deux premiers couples sont tels que 1/1,15—8/9,2—0,87. La différence B — 0 
décrit la croissance de l’expansion. Elle est grande dans le deuxième cas, ce qui 
explique pourquoi la valeur limite est atteinte beaucoup plus rapidement. La 
somme Ü +06 décrit le taux de division cellulaire. Si l’on augmente ce taux, sans 
changer le paramètre de la croissance 5 — 6, la chance de créer un cancer dans 
l'expansion d’une cellule initiée diminue. En revanche, la limite sera atteinte 
plus rapidement. 





2.3.6 Taux d'incidence du cancer 


Avec nos études de l'initiation, de l’expansion clonale et de la promotion à 
l’intérieur d’un clone, nous avons rassemblé tous les éléments pour calculer la 
fonction de survie qui nous intéresse réellement : 


Seancer(t) = P (un organe à N cellules ne contient pas de cellules 


néoplasiques avant l’âge ae 


Théorème 2.2 Une population de N cellules subit un processus d'initiation 
sous forme d’un processus de Poisson avec taux Àjni(t). Toute cellule initiée 
démarre une expansion clonale (voir Théorème 2.1) avec fonction de survie 
Sclone(t), telle que deux expansions différentes agissent indépendamment. Le 
taux d'incidence global vérifie 


Scancer(t) = EXP (- [ Xinit(u) (1 — Scione(t — U)) au) : 


Démonstration. Considérons les petits intervalles de temps entre (k—1)t/K et 
kt/K pour 1 < k < K. La probabilité qu’une nouvelle cellule initiée soit créée 
durant une telle période est 


Xinit(&t/K)t/K +o(1/K). 
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Figure 2.6 - Les trois courbes montrent Sclone(æ) pour trois différents choix de G et 
6. Le paramètre r = 3 x 10° est le même dans les trois cas. 


La probabilité que cette nouvelle cellule ne donne pas naissance à une cellule 
néoplasique entre kt/K et t vaut 


Sclone[(X — k)t/K]. 


La création de cellules initiées dans des intervalles disjoints est indépendante 
et chaque cellule initiée produit un clone qui agit indépendamment d’autres 
clones. La probabilité Seancer(t) est ainsi égale au produit 


É ((ou() 2(1)) su [89]: 
(a (R) (0) ) 
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où nous considérons dans chaque intervalle les deux événements incompatibles : 
création d’une nouvelle cellule initiée ou pas de création de nouvelle cellule. Le 
cas où plusieurs nouvelles cellules sont créées à une probabilité négligeable de 
l’ordre o(1/K). Nous pouvons réécrire Scancer(t) de la manière suivante : 


an(s (ou () 2400) (1-50 [EE R))) 


On peut encore appliquer le développement limité du logarithme, In(1 — h) = 
—h + o(h) pour h près de zéro. pour simplifier la formule. Cela nous montre 
que 


Im(1 — (Ainit(kt/K)t/K + 0(1/K)) = —(Anit(kt/K)t/K° + 0o(1/K)). 


Finalement, en interprétant l’exposant comme intégral de Riemann et en lais- 
sant À — ©, on obtient la limite 


+ Àinit (u) (1 — Scione (é CE u)) du, 


ce qui est à démontrer. 
La fonction de risque ou le taux d’incidence qui correspond à cette fonction 
de survie est 


d 


d t 
Xcancer (t) = 7 In Scancer(t) …— dt (| Xinit (u) (1 — Sclone(t — u)) di) . 


Un calcul élémentaire nous amène à la formule 


t 
Xcancer(t) on | Àinit (u) fclone(t nu u)du É 
0 


Où fclone(Z) — —d/dxSclone(t) est la densité pour la durée de vie avant Poc- 
curence du cancer. Cette densité n’est en général pas propre, parce que son 
intégrale est inférieur à un. 


2.4 Risque génétique 


Les modèles de la carcinogenèse sont devenus de plus en plus sophistiqués 
avec le passage du temps. L’idée des étapes multiples à répondu à plusieurs 
défauts des modèles plus simples, en particulier ceux à multiples frappes. Un 
des cancers les plus fréquemments observés, le cancer du côlon, semble être 
assez proche du modèle à deux étapes. Dans cet exemple, les polypes, des 
croissances bénignes qui peuvent évoluer en cancer dans un délai de 10 à 20 
ans, sont les formes intermédiaires des cellules. Le modèle explique élégamment 
les cas de cancers qui se manifestent chez les adolescents, dit 4 early-onset ». 
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Un individu qui est porteur d’une des mutations initiantes dès sa naissance 
suivra une Carcinogenèse accelérée. Dans ce sens, le modèle à plusieurs étapes 
peut incorporer des risques génétiques. Finalement, pour les cancer dits « late- 
onset», ce modèle s’ajuste avec succès aux courbes d’incidences de divers types 
de cancer. 


Comme expliqué ci-dessus, les cancers d’apparition précoce pourraient être 
liés à l'occurence d’une mutation, c’est-à-dire d’un certain génotype. Cela est 
une forme de risque génétique, qui à comme effet l’accelération du dévelop- 
pement d’une maladie dû au fait que le gène muté est une cause directe de 
la maladie. Un génotype peut pourtant être un facteur de risque qui agit de 
manière plus subtile, par exemple en diminuant les défenses naturelles de l’in- 
dividu. Pour beaucoup de maladies, les épidémiologues constatent l’existence 
d’un risque familial. Si l’on observe l’occurence d’une telle maladie parmi les 
enfants dont un des parents à également souffert, une augmentation du nombre 
des cas se manifeste. On pourrait expliquer ce phénomène soit par l’environne- 
ment et le comportement partagé en famille, soit par l'héritage de gènes mutés 
qui posent un risque. 


Pour inclure un élément génétique dans notre modèle de carcinogenèse, 
on pourrait modéliser les paramètres clés m, Gni et 5 — à par des variables 
aléatoires. Ainsi, chaque individu aurait ses propres valeurs et pour certains 
la fonction de survie Seancer plongerait rapidement vers zéro, tandis que pour 
d’autres la probabilité de développer un cancer serait faible. Pour une popula- 
tion entière, cette idée nous amène vers un modèle qui consiste en un mélange 
de modèles à deux étapes ayant différentes valeurs des paramètres. Plus simple 
encore, on pourrait postuler une simple condition qui sépare les individus en 
deux classes, celles et ceux qui sont vulnérables et susceptibles, et les autres 
qui sont protégés. Soit F > 0 la fraction de la population à risque et soit 
Xindépendant (t) la mortalité toutes causes confondues, à l’exception du cancer. 
Le taux de mortalité parmi la fraction à risque vaut 


à risque (é) Àcancer (é) + Àindépendant (e), 


tandis que la population qui n’est pas à risque à un taux de mortalité égal à 


Àprotégé (t) Àindépendant (é). 


Le taux d'incidence Àcancer(t) n’est valable que pour les personnes à risque. Si 
lon étudie l'incidence du cancer dans la population générale, en revanche, on 
doit modifier la fonction en la multipliant par la fraction des survivants parmi 
les susceptibles. À la naissance, une fraction F d’une cohorte est à risque, mais 
lorsque l’âge de la cohorte augmente, cette fraction varie et il faut en tenir 
compte. La formule suivante montre le taux d’incidence que l’on observe dans 
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la population 


incidences du cancer 





À t= 
observable (?) survivants dans la population 


incidences du cancer 


survivants dans là population à risque 





survivants dans là population à risque 





survivants dans là population 


survivants à risque 


= X À t). 
survivants dans là population cancer () 





En utilisant la fonction de survie, on peut calculer la fraction des survivants à 
risque, qui vaut 


F''exp (- 1e à risque ( u) du 


F exp (- EX Sue u)du) + (1— Fexp (- Lo À protégé (U u)du) 


La fonction Àindépendant(t) Se simplifie et on trouve finalement l'expression sui- 
vante pour le taux observable 





F'exp (- re cancer ( u) du) 
Fexp (- 1 et u) du +(-F) 





Àobservable (4) — Àcancer 


Le graphe de la fonction Àspservabie(t) est différent de celui de Àcancer(t). Au lieu 
d’un taux croissant avec l’âge t, on obtient typiquement un taux qui redescend, 
dû au fait que la fraction à risque est très faible dans une cohorte de vieillards. 
Pour en lire plus, le lecteur est invité de consulter Morgenthaler et al., 2004. 


2.4.1 Risque génétique dû à un seul gène 


On pourrait aller encore plus loin dans la modélisation du risque génétique. 
Supposons, par exemple, que « être à risque » signifie que l’on est porteur d’un 
génotype hétérozygote +— (une bonne copie d’un gène et une copie mutée du 
gène). Dans la population générale, il existe des personnes munies des trois 
génotypes ++, +— et ——. La proportion à risque est F = P,_, la proportion 
des hétérozygotes. 

En sachant qu’un des parents est à risque, comment cette information 
influence-t-elle la probabilité de risque des enfants ? Le tableau suivant montre 
les génotypes possibles : 





père à risque | mère enfant 

+— ++ | +4 ou +— avec probabilité 1/2, 1/2 

+— +— | +4, +-— où —— avec probabilité 1/4, 1/2, 1/4 
+— +— ou avec probabilité 1/2, 1/2 
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La probabilité qu’un enfant soit hétérozygote vaut donc 
P},:-1/2+P,-:1/2+ P__.:1/2 = 1/2. 


La moitié des enfants d’un père à risque seraient à risque si un tel gène existait. 

Inversement, en sachant qu’un des enfants est hétérozygote, quelle est la 
probabilité conditionnelle que le père soit hétérozygote ? Pour répondre à cette 
question, il faut considérer les sept possibilités suivantes : 




















père x mère | probabilité | probabilité conditionnelle d’un enfant +— 
+—xX+— Pi. Pi 1/2 

—— X + + P__ P,}+ il 

++x—— P,, P__ 1 

++xX+— RrNPas 1/2 

——X+— P__ P,- 1/2 

+—X++ P;,_ Pi, 1/2 

+—x—-— Pipes Pix: 1/2 




















Il s'ensuit que 


P(père +-— et enfant +—) 
P(enfant +—) 

1/2. Py- Ps +1/2Py4 Py- +1/2P__ P,- 

- 1/2P,;_P,_+P__P,,-2+P,, Ps +P__P, 

P,_ ne 

PDP DE 2 


P (père +— | enfant +—) == 











=12 














où nous avons utilisé le fait que P,, + P,;_+P__ =1et P;, =p4, P;_ = 
2p:p_, P__ =p?, la loi de Hardy Weinberg (voir chap. 3). 

La structure et la solution du problème sont ainsi parfaitement symétriques. 
Dans les deux cas, la proportion à risque augmente de F = P,_ dans la popu- 
lation à F = 50 % en considérant une sous-population d'individus dont on sait 
qu’une relation de premier degré (parent ou descendant direct) est à risque. Un 
tel modèle peut servir comme explication du risque familial discuté au début 
de cette section. 


2.5 Exercices 


1. Soit T > 0 un temps aléatoire continu. Montrez que les fonctions suivantes 
sont des caractérisations équivalentes de la distribution de T, F(t) = 
P(T <t) : 

(a) la densité f(t) deT, 
(b) la fonction de survie S{t) = P(T > t), 

la fonction de ri t)= lim ÆP(t+At>T>AT>t 
(c) la fonction de risque A(t) fm A5 GÉArST=1N 1); 
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(d) le temps de vie résiduel espéré r(t) = EIT — t\T > t]. 
Indication : pour toute v.a. non-négative T l'espérance vaut E[T] — 
OO 
Pr PS Ode 
2. Supposons que l'incidence d’une forme de cancer croisse quadratiquement 
avec l’âge. Quel modèle se cache derrière ce fait ? 


3. Calculez la fonction de survie S(t) et la fonction de risque A(t) dans le 
cas où T suit 


(a) une loi exponentielle €E(À). Que peut-on dire sur le temps de vie 
résiduel espéré dans ce cas ? 


(b) une loi gamma l(X,2) avec densité f(#) = Àe-M(Xt), > 0. 
(c) une loi Weibull avec densité f(t) = BA(M)E- Let)? , BA > 0. 


4. Soient À le taux de création d’une néoplasie par unité de temps et par 
cellule, N le nombre de cellules, S(t) la fonction de survie d’un individu 
et h(t) sa fonction de risque. Si h(t) = NX, quelle est la fonction S(t) 
correspondante ? Si on observe pour un échantillon de taille n les durées 
de vie t1,...,t et N est connu, quel est l’estimateur du maximum de 
vraisemblance du paramètre À? 


5. (a) Soit T une variable aléatoire qui représente la durée de vie d’une 
cellule. Dans une méthode à une frappe, cette variable suit une loi 
exponentielle de paramètre À > 0, où À est l'intensité de la frappe 
par cellule. On considère un modèle à deux frappes dans les deux 
cas suivants : 


i. La deuxième frappe ne peut avoir lieu que lorsque la première 
frappe est survenue, c’est-à-dire T = T5 + T2 où T et T3 sont 
des temps de survie indépendant exponentielle. 


ii. Les processus de la première frappe et de la deuxième frappe 
commencent en même temps, c’est-à-dire T = max(T1,T2) où 
T\ et T2 sont des temps de survie indépendant exponentielle. 
Calculez la fonction de survie ainsi que la fonction de risque pour 
chaque modèle. 

(b) Si on prend la variable aléatoire Tiryane Correspondant à la durée de 
vie de organe qui est constitué de N (N > 0) cellules, donnez la 
fonction de survie de l’organe. 

Indication : soient X + Fx et Y + F, les variables aléatoire indépen- 
dantes, alors 


PX+Y<D= | be Re) 


6. (a) Supposons que deux transformations (initiation et promotion) soient 
nécessaires pour transformer une cellule normale en une cellule can- 
céreuse. On donne les hypothèses suivantes : 


40 Génétique statistique 





i. Le nombre N de cellules est constant. 


ii. Les cellules agissent de façon indépendante. Les cellules nor- 
males se transforment en cellules initiées selon un processus de 
Poisson homogène {7(t); t > 0} d'intensité À avec 7(0) = 0. 

ii. Le temps d’attente X d’une cellule initiée pour subir la deuxième 
transformation (promotion) suit une loi continue avec fonction 
de répartition F. 


Démontrez que la fonction de survie dans ce modèle est 


S(t) = e AN Jo FG-z)dz 


Indication : 


i. Si k est le nombre de cellules initiées entre [0, t], alors les temps 
d'initiation T1,12,---,1% sont des échantillons distribués selon 
une loi uniforme de U(0,t). 


üi. Le nombre de cellules initiées entre [0, t] suit une loi de Poisson 
de paramètre (NX). 


(b) Calculez la fonction de survie si F est la fonction de répartition 
d’une loi exponentielle. 


7. Un génotype hétérozygote Aa nous met à risque pour une maladie. Suppo- 
sons qu’un enfant développe la maladie en question et qu’un test montre 
que l'enfant a comme génotype Aa. Quelle est la probabilité que la mère 
soit également hétérozygote ? 


Chapitre 3 


Maintien de la diversité 
génétique dans une 
population : équilibres 


3.1 Équilibre de Hardy-Weinberg 


Le génome est présent dans les cellules sous forme de longues molécules 
d'ADN, nommées chromosomes. Chez les humains, l’information génétique se 
concentre essentiellement dans les 2 x 22 chromosomes homologues et les 2 
chromosomes sexuels. Les chromosomes portent les gènes, qui à leur tour re- 
présentent dans un sens l’unité d’information génétique. Deux exemples : le 
gène ABO qui détermine le groupe sanguin se trouve sur le chromosome 9, et 
le gène du facteur VIII dont le déficit cause l’hémophilie du type À est situé 
sur le chromosome X. La transmission du génome des parents aux descendants 
se manifeste par le fait que les cellules humaines contiennent 23 chromosomes 
provenant de la mère et 23 provenant du père. Les deux chromosomes sexuels 
sont homologues chez les femmes (XX) et en couple avec un autre chromosome 
chez l’homme (XY). Les chromosomes dont nous avons deux copies ainsi que 
les gènes qui s’y trouvent sont dits autosomes. Les chromosomes sont consti- 
tués de polymères formés de nucléotides composés d’une base et de désoxyribase 
phosphate. La structure d’un chromosome est une double hélice formée de deux 
brins complémentaires. La structure est maintenue par une liaison entre bases 
complémentaires. Les chromosomes sont aïnsi constitués de paires de bases 
(pb). Les chromosomes sont nommés 1, 2, ..., 22, X, Y et leurs tailles en paires 
de bases sont données au tableau 3.1. 

Il y à quatre bases différentes : À (adénine), G (guanine), C (cytosine) et 
T (thymine) avec les couplages complémentaires À — T et G — C'. Les deux 
brins d’un chromosome contiennent l’information génétique en double. Si un 
brin comporte une base @, alors l’autre à un Cet ainsi de suite. En exploitant 
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Table 3.1 - Le nombre de paires des bases (en millions) des 22 chromosomes homo- 
logues et des deux chromosomes sexuels de l’espèce humaine. 














Ch.1 Ch.2 | Ch. 8 | Ch.4]| Ch.5 | Ch.6 
263 255 214 203 194 183 
Ch.7 | Ch.8 | Ch.8 | Ch. 10 | Ch. 11 | Ch. 12 
171 155 145 144 144 143 
Ch.13 | Ch. 14 | Ch. 15 | Ch. 16 | Ch. 17 | Ch. 18 
114 109 106 98 92 85 
Ch.19 | Ch. 20 | Ch. 21 | Ch. 22 | Ch. X | Ch. Y 
67 72 50 56 164 59 


























les différences dans les propriétés physiques des bases, il est possible d’établir la 
séquence d’une molécule d'ADN. Un des objectifs du projet de séquençage du 
génome humain (voir par exemple genomics .energy.gov) était l'établissement 
de la suite ADN d’un être humain. Le génome humain total contient 3, 1647 x 
10° paires de bases. Le nombre de gènes se trouve entre 25 000 et 30 000 avec 
une longueur moyenne d'environ 3 000 pb. La longueur des gènes varie pourtant 
de manière importante. Plus que 99,9 % des paires sont identiques d’un individu 
à l’autre, mais cela laisse quand même environ 1,4 x 105 pb où des différences 
existent. On parle d’une base polymorphique si elle est telle qu’une proportion 
appréciable (plus de 5 %) de la population est porteuse d’une variante. L’assez 
faible pourcentage de bases polymorphiques est suffisant pour que beaucoup de 
gènes ne soient pas uniques et qu’une diversité génétique existe. À l'exception 
des gènes se trouvant sur les chromosomes sexuels, nous possédons deux copies 
de chaque gène. Une copie d’un gène est appelée un allèle. Chaque individu 
possède donc deux allèles de chaque gène et ce couple de gènes détermine son 
génotype. Si les deux allèles sont égaux, la personne est homozygote. Dans le 
cas contraire, elle est hétérozygote. 

Le fait que les gènes sont souvent polymorphiques est bénéfique. Éliminer la 
diversité génétique est dangereux pour la survie d’une espèce. En connaissant 
tous les allèles et leurs fréquences, la variation génétique dans une population 
est définie. Cela représenterait pourtant un vaste projet, car la détermination du 
génotype d’un individu est difficile et coûteuse. Les allèles s'expriment parfois 
par des caractéristiques physiologiques ou des apparences physiques. Dans ce 
cas, en observant le phénotype d’un individu, on peut déduire son génotype. 
Mais, dans d’autres circonstances, le génotype ne se voit pas et des techniques 
plus fines fondées sur la biologie moléculaire sont nécessaires. 


Exemple 3.1 Le gène ABO détermine les antigènes sur la surface des globules 
rouges. Îl existe trois phénotypes que l’on peut facilement distinguer par la 
réaction du sang aux anticorps. Il y a donc au moins trois génotypes. Par une 
étude génétique, on trouve qu'il y a en réalité trois allèles, nommés À, B et O. 
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Pourtant, avec trois allèles, on peut former Cr) : () — 6 génotypes. La 
liste des génotypes et phénotypes est indiquée au tableau 3.2. 


Table 3.2 - Liste des génotypes et phénotypes pour le gène ABO, qui détermine le 
groupe sanguin. 





génotype phénotype : 
groupe sanguin 





























homozygote AA A 
hétérozygote AB AB 
hétérozygote AO A 
homozygote BB B 
hétérozygote BO B 
homozygote OO O 








Les allèles À et B dominent l’allèle O. L’allèle O est dit récessif par rapport 
à À et B. Les allèles À et B sont dits codominants. 


Il est évident que les fréquences des allèles peuvent être calculées à partir 
des fréquences des génotypes. Les formules suivantes s’appliquent dans le cas 
de deux allèles différents À et a d’un gène autosome, mais leur généralisation 
aux cas plus complexes est directe. On notera par pA4 la fréquence de l’allèle A 
et par PA4a la fréquence du génotype Aa. 


Si la population se divise en génotypes 
selon les proportions (P44, Pau, Poa = 
1— Pa A— PAa) et que l’on tire aléatoire- 
ment d’abord un individu et ensuite un 
des deux allèles de l’individu, on obtient 
la formule 


pa = 1X Paa +2 X Paa +0 X Pa 
= PA +0,5 X Pa. 





Pour la démontrer, le diagramme en 
arbre ci-contre suffit. 


En principe, le calcul inverse des fréquences des génotypes en fonction des 
fréquences des allèles, n’est pas possible. À l’aide de la seule probabilité p4 = 
1—p,, on ne peut pas calculer les deux probabilités P41 et P4a. Mais, lorsque les 
gènes se mélangent librement dans une population, on peut effectuer ce calcul. 
Ce résultat se base sur le modèle de Wright-Fisher (voir fig. 1.2, p. 7) et quelques 
hypothèses fondamentales dont nous allons discuter par la suite. Le modèle de 
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Wright-Fisher est une des idées centrales de la génétique des populations. Ce 
domaine scientifique tente de former et de tester des hypothèses concernant la 
répartition d’allèles dans une population. Un ouvrage très lisible qui contient 
les idées fondamentales est celui de Hartl et al., 1997. 


Hypothèse a) Ségrégation mendelienne 


Si un adulte est de génotype Aa pour un gène, ses gamèêtes sont dans 50 % 
des cas porteurs de À et dans 50 % des cas porteurs de a. Ce mode de trans- 
mission de l’information génétique est dit ségrégation mendelienne. En consé- 
quence, à partir du génotype, on peut calculer la fréquence des allèles dans les 
gamètes. De plus, les fréquences des allèles dans les gamètes sont égales à celles 
des allèles dans la population, au moins pour les gènes autosomes. 


Hypothèse b) Unions aléatoires 


Par « union aléatoire », on entend une sélection complètement aléatoire 
des couples qui vont créer des descendants. Les fréquences de croisement de 
génotypes peuvent donc être calculées par multiplication. Le croisement d’un 
génotype AA avec un génotype Aa à une probabilité 2P44 PA. Pour justifier 
ce calcul, supposons que les deux partenaires soient choisis aléatoirement. Le 
tirage d’un génotype AA suivi d’un génotype Aa à une probabilité de P44 Pau. 
Parce que l’ordre pourrait être inverse, on obtient un facteur de 2. Dans des 
populations de petite taille, cette condition n’est pas vérifiée exactement du 
fait des dépendances entre unions. 


Hypothèse c) Fertilité normale 


Le génotype n’a aucune influence sur la chance d’un individu d’avoir des 
descendants. 


Hypothèse d) Survie indépendante du génotype 


Le génotype n’a pas d'effets sur la santé et la chance de procréation de 
l'individu. 


Hypothèse e) Générations qui ne se chevauchent pas 


Cette hypothèse n’est que rarement strictement vérifiée. Elle stipule que les 
générations des parents et des descendants sont séparées, comme par exemple 
chez les plantes annuelles. 


Lemme 3.1 (Hardy- Weinberg). Une population de taille infinie se renouvelle 
sous condition de ségrégation normale, de fertilité normale, d’unions aléatoires, 
de générations qui ne se chevauchent pas, et de survie indépendante. Soit un 
gène autosome à deux allèles À et a avec probabilités de génotypes Psext AA, 
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Pia €t Paa dans une génération quelconque. Par conséquent, les fréquences 
des allèles À et a dans cette génération sont pa = Paa + Paa/2 et pa = 
Paa+ PAa/2. Sous les hypothèses enoncées, les fréquences des génotypes à partir 
de la prochaine génération vérifient : 


Pia = nas Pas = pans = pal pires prete pas : (60 


Exemple 3.2 Selon ces formules, pour un gène autosome avec deux allèles À 
et a et fréquence pa = 70 %, les proportions des génotypes sont 


Paa = 49%, Pa = 42% et Pia = 9 %. 


Si l’équilibre de Hardy- Weinberg est vérifié, on parvient donc à faire le pas qu'il 
n’a pas été possible d'effectuer avant, c’est-à-dire calculer les fréquences PA 4 
et Pas sur la base de pA seulement. Sous cet équilibre, la connaissance des 
fréquences d'’allèles équivaut à la connaissance des fréquences de génotypes. 


Preuve. Le tableau 3.3 part d’une population parentale dans laquelle les 
génotypes AA, Aa et aa sont en proportions (P44, Paa et Paa). Les fréquences 
des allèles dans cette génération vérifient pa = (2P414 + Paa)/2 et pa = 1—pA. 
Le tableau 3.3 contient pour chaque combinaison de génotypes des parents les 
probabilités (conditionnelles) des génotypes des descendants, calculées sous les 
hypothèse a), c) et d). 


Table 3.3 - Répartition des génotypes des descendants en fonction des génotypes 
des parents. Dans la première ligne du tableau, par exemple, on considère les cas 
de deux parents ayant un génotype AA. La probabilité d’une telle union vaut P2:. 
Tous leurs descendants ont un génotype AA et les probabilités conditionnelles pour 
les différents génotypes parmi leurs descendants sont comme indiquées dans les trois 
dernières colonnes. 














génotypes des fréquences génotypes et fréquences 
parents (hypothèse b) | conditionnelles des descendants 
AA | Aa aa 
AA et AA PA 1 0 0 
AA et Aa 2 Paa Pau 1/2 | 1/2 0 
AA et aa 2 Pa A Pia 0 1 0 
Aa et Aa Pi: 1/4 | 1/2 1/4 
Aa et aa 2 Pau Paa 0 1/2 1/2 
aa et aa pe 0 0 1 




















La probabilité d’un descendant avec génotype AA se calcule facilement à 
laide du tableau 3.3 en sommant le produit des probabilités de la deuxième 
colonne avec les probabilités conditionnelles dans les trois dernières colonnes. 
On obtient : 
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Paa = 1X P54+0,5 X 2 P4a Paa + 0,25 x PA, 
— (P44 + Paa/2) = pà 
0,5 X 2 Paa Pau + 1X 2 Pan Ps 40,5 X P4, +0,5 X 2P Pa 
2(P44 + 0,5P4a) (Paa + 0, 5PA4a) = 2PA Pa 
Pa = DORE EDS X2 Pia Pas El x PE 
= (Pa + P4a/2) = PE. 


Paa 


Il 


Il 


Cela démontre que l’équilibre entre fréquences d’allèles et fréquences de géno- 
types s’installe immédiatement, d’une génération parentale quelconque à la gé- 
nération des descendants. Même si, dans la génération des parents, P14 n’était 
pas égale à p, parmi les descendants, l'équilibre serait valide. 

Les hypothèses dont l’équilibre découle devraient être discutées davantage. 
Les unions peuvent, par exemple, être dictées par de multiples raisons. Soit 
parce qu’un éleveur veut provoquer un certain résultat, soit parce que la géo- 
graphie sépare la population en sous-groupes, soit parce que des conventions 
sociales et culturelles forcent certains mariages. Dans tous ces cas, l'équilibre 
de l’aléatoire est brisé et a comme effet un surplus d’homozygotes. Si l’un des 
allèles procure un avantage de fertilité à son porteur, l’équilibre de Hardy- 
Weinberg n’est également pas observé. L’allèle avantageux a tendance à s’en- 
richir. Tout dépendra du comportement des génotypes. Est-ce que le fait de 
porter une seule copie de l’allèle avantageux est mieux que d’en avoir deux ? 
Si oui, une autre balance au niveau des fréquences pA et p, s’installera. Par la 
suite, nous allons étudier ces questions de façon plus approfondie. 


3.1.1 Équilibre pour des gènes sur le chromosome sexuel 


Une exception tout à fait simple à l’équilibre est présentée par les gènes 
se trouvant sur le chromosome sexuel X. Tandis qu’une femme possède deux 
copies du chromosomes X -— elle en reçoit une du père et l’autre de la mère 
— l’homme en reçoit une seule copie de la mère. Pour plus de précision, nous 
allons à nouveau considérer deux allèles, À et a, mais parce que le gène se 
trouve sur le chromosome X, l’homme ne porte qu’une copie. Supposons que 
les fréquences des génotypes parmi les femmes et les hommes dans la génération 
des parents soient : 


PAA;, PAa; Paa (pour les femmes) et Q4,Q4 (pour les hommes). 


Les fréquences de l’allèle À parmi les femmes f4 et parmi les hommes m1 
vérifient donc : 


1 
fa = Paa + 7 Paa et mA = QA. 


Le tableau 3.4 montre les unions possibles et les conséquences sur les descen- 
dants masculins. 
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Table 3.4 - Probabilités conditionnelles des génotypes des descendants masculins en 
connaissant le génotype des parents. La deuxième colonne contient les fréquences 
des combinaisons de génotypes des parents. En sommant le produit des fréquences 
et des probabilités conditionnelles, on obtient la répartition des génotypes parmi les 

















descendants. 
génotypes fréquence | génotypes et fréquences conditionnelles 
des descendants masculins 
mèêre @ pêre A-— a— 
AA @ A- P14 QA 1 0 
AA ® a— P11 Qa 1 0 
Aa ® A | PaaQa 1/2 1/2 
Aa @ a— Pa Qu 1/2 1/2 
aa Q A— Pia QA 0 1 
aa © a— P;5Q: 0 1 
P4A + Paa/2 Pia FPan)2 
= fA = (1-— fA) 














Le tableau 3.5 indique les chiffres pour les descendants féminins. Les sommes 
dans les colonnes sont Q 4(Paa+Paa/2) = MAfA, Qa(PAA+PAa/2)+Q A (Paa+ 
PAa/2) = Ma J A an MA Ja et Qa(Paa n PAa/2) — Ma Ja 





Table 3.5 — Probabilités conditionnelles des génotypes des descendants féminins en 
connaissant le génotype des parents. La deuxième colonne indique les fréquences des 
combinaisons de génotypes des parents. En sommant le produit des fréquences et 
des probabilités conditionnelles, on obtient la répartition des génotypes parmi les 

















descendants. 
génotypes fréquence | fréquences et génotypes des descendants 
féminins 
mère © père AA Aa aa 
AA @ A— P14 QA 1 0 0 
AA @ a— P11 Qa 0 1 0 
Aa @& A— PAa QA 1/2 1/2 0 
Aa ® a— PAa Qa 0 1/2 1/2 
aa Q@ À— Pa QA 0 1 0 
aa & a— Pia Qa 0 0 1 
LA fA Ma J A + MA fa Ma Ja 

















En résumant ces deux tableaux, on peut conclure que, dans la génération 
des descendants, la fréquence de Pallèle À parmi les hommes vaut f4 et, parmi 
les femmes (2ma fa + MafAa + MAfa)/2 = (mA + fA)/2. Le passage d’une 
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génération à l’autre se fait donc selon le schéma 


génération g —— génération g +1 
(ma, fa) — (fa, 3 fa+3ma). 


Si l’on réitère ces transformations, les fréquences convergent vers la solution 
JA = mA, qui correspond à un équilibre stable, mais la convergence n’est pas 
immédiate. Si l’on commence par exemple avec f4 = 0,35 et mA = 0,05, alors 
la fréquence de l’allèle À parmi les femmes suit le chemin suivant : 


0,35 — 0,20 — 0,25 — 0, 225 





3.2 Estimer les fréquences d’allèles 


Lorsque l’on invoque des arguments génétiques dans la recherche médicale, 
on suppose presque toujours que l’équilibre de Hardy-Weinberg est valide. Pour 
tout calcul de fréquences de génotypes et pour chiffrer la variation génétique, il 
est donc suffisant de connaître les allèles et leurs proportions dans la population. 
La méthode la plus simple pour déterminer la proportion d’allèles consiste à 
prendre un échantillon de n individus tirés au hasard et ensuite de déterminer 
leurs génotypes (« génotyper »). 


Exemple 3.3 {Groupes sanguins À, B, AB, O). En déterminant les groupes 
sanguins d’un échantillon de n individus tirés d’une population, on peut direc- 
tement estimer les proportions des différents phénotypes. Si parmi n individus, 
nA, NB, Nag et no ont respectivement les groupes À, B, AB, et O, les propor- 
tions des phénotypes sont estimées par Da = nA/n, DB = ng/n, Das = nag/n 
et Po = no/n. 

Dans un échantillon de 1 617 personnes du Pays Basque, par exemple, la 
répartition à été la suivante : 





























| génotype AA, AO | AB | BB, BO OO 

| phénotype A AB B O 

| nombre observé 724 20 110 763 

| pourcentage 14,8% | 1,3% 6,8% 17,2 % 





Les groupes À et © sont les plus fréquents. Le groupe AB est rare. 


Pour tester si une population est en équilibre par rapport à un gène, on 
peut utiliser le test khi-deux de Pearson. Mais pour utiliser ce test, il nous faut 
les valeurs E; et, pour cela, il faut connaître les probabilités des allèles. À partir 
de la classification en phénotypes, il faut donc pouvoir estimer les fréquences 
des allèles. 


Chapitre 3. Maintien de la diversité génétique 49 





3.2.1 La méthode du maximum de la vraisemblance 


La méthode du maximum de la vraisemblance offre une solution géné- 
rale aux problèmes d’estimation. De tels problèmes se présentent comme suit. 
Avec une expérience ou une étude on obtient des données y. Ces observations 
contiennent une partie aléatoire incontrôlable due à de multiples causes, entre 
autres des erreurs de mesure ou un échantillonage partiel d’une population. 
Même si on n'arrive pas à contrôler les influences aléatoires, on peut décrire 
leurs effets. Soit F(y|l0) la fonction de répartition des données, et f(y|0) la 
densité. Comme l'indique le nom, y est la donnée du problème, tandis que 0 
est l’inconnu. La vraisemblance est une fonction de l’inconnu 4, V (8), dont la 
valeur est interprétée comme suit. V(40) indique si 4 est, en vue des données 
y, un choix vraisemblable de l’inconnu. La méthode du maximum de la vrai- 
semblance consiste à choisir les valeurs les plus vraisemblable des paramètres, 
celles qui optimisent la fonction V. 


Définition 3.1 Si les données y ont une densité f(yl0) avec un paramètre 
inconnu 0 € RP, la fonction de vraisemblance est définie comme 


V(8) = f{(yl8). 


La vraisemblance est donc simplement la valeur de la densité des données y et 
vue comme fonction du paramètre inconnu. La fonction log-vraisemblance est 


4(8) = In (V(8)). 


L'’estimateur du maximum de la vraisemblance Ouv(y) (ou Ÿ tout court) vérifie : 


l (ouvtu)) >4(0) pour tout 6. 


À quelques exceptions près, l’estimateur du maximum de la vraisemblance an- 
nule le gradient de la log-vraisemblance : 


& (uv(u)) = 2 (duv(u)) = 0. 


Lorsque la dimension du paramètre est p = 1, la dérivée partielle est égale à la 
dérivée ordinaire = ('. Par contre, si p > 1, ê est un vecteur de dimension P, 
car il y à une dérivée partielle par composante du paramètre 0. 

Les deuxièmes dérivées partielles de la log-vraisemblance 


ê (éuv(y)) = — . & (Ouv(s)) 


donnent une indication de la difficulté du problème d'estimation. Si p = 1, il 
s’agit tout simplement de la dérivée re ={";sip>l, l'est une matrice 
de dimension p x p avec élément typique Er pour 1<k,l< p. La figure 3.1 
montre deux cas à dimension p — 1 avec deuxièmes dérivées très différentes. 
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Figure 3.1 —- Dans les deux cas, le paramètre 0 se trouve entre 0 et 1 et la log- 


vraisemblance est optimisée par Ov = ë. Dans un cas, la log-vraisemblance est plus 
près d’une constante et beaucoup de valeur de 0 sont presqu’autant vraisemblable 


que 2. Dans l’autre cas, la distinction entre vraisemblable et invraisemblabe est plus 


nette. 


La figure 3.1 montre que Ÿ (ôuv ()) est définie négative. On peut démontrer 


.: no)" 


est un estimateur de la variance de Oury. 
Parce que les méthodes basées sur la vraisemblance sont importantes, nous 
allons discuter quelques exemples. 


Exemple 3.4 Dans un sondage de n individus, on a déterminé le groupe san- 
guin et obtenu la classification n = na + nas + ng + no. Pour le moment, 
nous sommes intéressés par l'estimation de la fréquence des phénotypes. Le 
paramètre est donc 0 = (p4, pag, pB, po) et la vraisemblance est égale à la 
probabilité de la répartition observée : 


V(pA, pAB, PB, po) = P(nA, naB, n8, no|PA, PAB, PB, po). 
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Parce que la répartition des n individus en groupes sanguins est du type mul- 
tinomial, cette probabilité est facile à calculer. La vraisemblance multinomiale 
est : 


V(pA, pas, pe, po) x (p4)"* (pas) (p8)"* (po)"° , 


avec constante de proportionnalité (n!)/[(nal(nas!)(ns!)(no!). 
La log-vraisemblance est égale à : 


{(pA, PAB, PB, Po) = constante + na In(p4) + nas In(p4s) 
+n8 In(ps) +no In(po). 


Avant de procéder à l’optimisation de cette fonction, il faut se rendre compte 
d’une difficulté liée à cet exemple. Le paramètre 0 est soumis à des conditions 
dont la plus importante est 


PA + Pas + PB + Po = 1. (3.2) 


L'’optimum de L doit respecter cette contrainte. Heureusement, ce n’est pas trop 
difficile. Il est bien connu qu’en optimisant 





{1(8) = €() — X(pa + pas + ps + po — 1) 


par rapport aux paramètres et le multiplicateur de Lagrange À, on peut trouver la 
solution. L'’estimateur du maximum de vraisemblance annule donc les dérivées 
partielles de la fonction x et vérifie : 


OU, 0 : LEE" 





OpA “Pa 
Or 0 : TAB) 
OpaAs PAG 
: et ainsi de suite pour pg et po 
Olz À À  — 
ne 0 : DA +Das + PB +Po = 1. 


Les solutions de ce système sont les estimateurs intuitifs que nous avons cités 
au tableau ci-dessus : 


Pa = na/n, Das = nas/n, etc. 


Le calcul des deuxièmes dérivées partielles sous la condition (3.2) donne 
l’estimateur de la variance de 0 suivante : 














PA(I—PA) Papas PaPs PaAPo 
AUML ce nm UM ax Ni 
spa PAPAS PAB y» DASP8 PA5Po 
Var (0) — Le (Pas) HAN ae 
Pape PasP?s  Pe(—Ps) PsPo 
nm. cu nm. on re nm. 
PAPo Paso PePo Po(i-Po) 
n n nm nm 
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Exemple 3.5 Quatre personnes sur 10 000 souffrent d’une certaine maladie 
génétique causée par un allèle récessif. Quelle est la proportion de la population 
qui est porteuse de cet allèle ? On peut donner une réponse à cette question 
uniquement si l’on suppose que la population est en équilibre. Notons les deux 
formes du gène + pour l’allèle normal et — pour l’allèle qui est à la base de la 
maladie et soient p+ et p- les proportions des allèles. En équilibre, la proportion 
des individus avec génotype —— est P__ = p?. On a donc p? # 4/10000 
et p- © 1/50. Finalement, on peut calculer la proportion des individus avec 
génotype héterozygote +— pour laquelle on obtient 2p_(1 —- p_) & 2x2 x 
98/1002 — 0.039. 

Supposons maintenant que dans un sondage de n — 10000 personnes, on 
trouve x = À avec la maladie génétique. Comment estimer p_ par la méthode 
du maximum. de la vraisemblance ? Le nombre x est une observation binomiale 
avec vraisemblance 


PRE SÉRIE 
La log-vraisemblance est donc : 


(p_) = constante + x In(p?) +(n—x)In(1-—p°?). 


Les dérivées de cette fonction sont : 





Fe Se 
N—T 2, 2 n—T 
à 


La log-vraisemblance est maximisé par la racine L'(b_) = 0, c’est-à-dire ÿ_- = 
V/x/n. On trouve donc le même estimateur que ci-dessus. Pour la deuxième 
dérivée on a L”(ÿ-) = —4x?/(n—x). La variance de l’estimateur p_ est donc : 


Var(g_) = —1/2"(6-) = (n— x)/(4x?) = (1-52)/(4n). 


Avec nos chiffres, on obtient p- — 1/4/10000 — 0,02. L'’écart-type de cet 


estimateur vaut 0,005. 


Exemple 3.6 Les groupes sanguins M, N et MN résultent d’une gène à deux 
allèles co-dominants. Les individus héterozygote ont un phénotype MN, différent 
des deux homozygotes MM et NN. Dans un sondage de 3 100 Polonais, on a 
obseré 1 101 fois MM, 1496 fois MN et 503 fois NN. On souhaîte estimer les 
fréquences des allèles puy et pn — 1 — pm sous condition que l’équilibre de 
Hardy- Weinberg est valide. Dans ce problème, la vraisemblance est 


Von) x [(pm) 1% pu (1 - pm) [( - pu) PS. 
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La log-vraisemblance et ses dérivées sont : 








{(pm) = constante +2 X 1101 In(py) + 1496 In(pw) + 1496 In(1 — pm) 
+2 x 503In(1 — pu) 
4 
(pu) = À LOL+1 96 2x 508-1496 
__ _2x1101+1496 _ 2x503+1496 
Pipu) = 2m _ pts 


2x1101+1496 __ 1101 , 





Do de pm qui annule la première dérivée est Dm — L = 3100 + 


3 3100 — 0,596. En substitutant cette valeur dans la deuxième dérivée, on trouve 


Varlÿu] = —1/ell"(ÿm) = mu (1 — ÿm)/(2n) = (0,0062)2. 


Le test du rapport des vraisemblances 


La vraisemblance est utile pour juger si une valeur particulière du paramètre 
0. La meilleure valeur dans le sens de la vraisemblance est l’estimateur Ov qui 
optimise la vraisemblance. Pour comparer avec une autre valeur 66, on se base 
sur le rapport V(ômv)/V (80). Ce quotient est toujours plus grand que 1, parce 
que la plus grande valeur possible de la fonction V est dans le numérateur. Un 
très grand quotient indique que 60 est une valeur du paramètre qui n’est pas en 
accord avec les données. Si, en revanche, le quotient est près de 1, la valeur 65 
pourrait très bien être correcte. Le rapport des vraisemblances est donc utile 
pour tester l'hypothèse nulle que 60 est la vraie valeur du paramètre. On peut 
démontrer que 


V(buv) ; 
S—=2In (Fu) = 9 (Ov) — U(B0)) 


possède une loi nulle qui est approximativement égale à une loi khi-deux avec 
dim(@) degrés de liberté. 


Exemple 3.7 Dans cet exemple, nous utilisons les données des groups san- 
guins MN pour tester l’équilibre de Hardy-Weinberg. Pour calculer le rapport 
des vraisemblances, il faut utiliser le paramètre 0 = (Pum, Pmn, PNN) à la 
place de pm, car sinon il faut faire appel à l'équilibre de Hardy- Weinberg. La 
vraisemblance devient 


1101 p1496 p503 
V(Pum; Pun, PNN) & Pyrm PMN PNN 


et l’estimateur que l’on obtient est Pum = 1101/n, Lun = 1496/n et Ênwn = 
503/n. Sous l’hypothése nulle de l’équilibre de Hardy- Weinberg, on sait que 
Pum = A Pun = 2pmpn et PNN = pas L’estimateur du maximum de 
la vraisemblance de pu est la valeur qui maximise V(Pum = Dir PMN = 
2pm(1—pm), Pnn = (1—pm})), c'est-à-dire fu = 2. + à 156. Pour voir si 
la solution sous l'hypothèse nulle de l’équilibre est acceptable, on peut utiliser 


le test du rapport des vraisemblances 


S —2 (in [V (Para Pur, Pxn)| — In [V (5%, 26m (1 — fm), (1 — 5u)?)]) 
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Un calcul élémentaire montre que 


1101 
s-2[uon (eme) 











1496 
14961 
LE (nn) 
503 
5031 = 0,0188. 
: (ra) | 





Le nombre de degrés de liberté est égale à la différence de la dimensions du 
paramètre dans les deux termes de S, c’est-à-dire 2 — 1 = 1. La valeur de notre 
S' est égale au quantile 0,11 de cette loi khi-deux. 


Si, dans un sondage, n objets sont classés selon k types, on peut résumer le 
résultat par les observations O; pour 1 < à < k, où O,; est le nombre d'objets 
du type i. Le paramètre du problème est 0 — (p1,...,p4) avec p; la probabilité 
de la classe à et la fonction de vraisemblance et la log-vraisemblance vérifient : 


k 


V(p1,...,px) © pipe? -.-pe 
{(p1,...,px) —= constante + n1n(p1) +---+nxln(px). 


Le test du rapport des vraisemblances d’une hypothèse nulle qui fixe la valeur 
du paramètre 00 = (p10,..-,Pxo) est : 


S = 2[n1 In(f1/p10) + --: + n1 In(ÿx/pxo)], 


avec D; = n;/(n1 +: +nz) = n;/n. En posant le nombre espéré du nombre 
d'objets dans la classe à sous l’hypothèse nulle égale à E; = (n1+-:-+nx)pio — 
npio, on peut écrire : 


8 —2[01m(O1/E1) +-.:+ Oxm(Ox/Ex) (3.3) 


Ce test, parfois appelé le test G, est comparable au test khi-deux de Pearson 
(voir [1.1], p. 5). 


3.2.2 Estimer les fréquences d’allèles 


Déterminer les fréquences des phénotypes sur la base d’une sondage est fa- 
cile, mais estimer les fréquences des allèles ne l’est pas, à cause de la dominance 
et co-dominance. Dans le cas des groupes sanguins, par exemple, il est impos- 
sible de savoir combien de personnes parmi les n 4 personnes de groupe sanguin 
À ont le génotype AA et combien ont le génotype AO. 

Essayons quand-même d’appliquer la méthode du maximum de la vraisem- 
blance. Cette fois, le paramètre est 


0 = (pA, pp, po), 


Chapitre 3. Maintien de la diversité génétique 55 





soumis à la condition p4 + pg + po = 1, et la vraisemblance est 


V(pA, PB; Po) = P(na, naAB; NB; nolpA, PB; Po) ; 


Selon les formules de Hardy-Weïnberg, un individu choisi au hasard est de 
groupe sanguin À avec probabilité P44+P40 = pÀ+2papo. La chance qu’il ait 
le groupe B est Pp8+P20o = p+2pBpo, celle du groupe AB est Par = 2pApB 
et celle du groupe © est Poo = pe La vraisemblance multinomiale nous donne : 

V(pA, p8, po) & (2papo +pà) * (2pape)"® (p8 +2pspo) * (6) ”, 
avec constante de proportionnalité (n!)/[(nal)(nas!)(ng!)(no!)]. Pour la log- 
vraisemblance on trouve : 


E(pA, PA, Do) = constante + n4 In(2p4 po + pà) + nas In(2p4ps) 
+ng n(2pp po +p2) +2no In(po). 


Cette fois, l'optimisation de la Lagrangienne {7 amène à des expressions non- 
linéaires qui n’ont pas de solution analytique. Ces difficultés sont dues au fait 
que les probabilités des groupes sont des polynômes en 0 et que les dérivées 
partielles sont des fonctions rationnelles. 

Il est intéressant de constater que le problème décrit ci-dessus à été à l’ori- 
gine d’une nouvelle méthode d'optimisation par itérations, appelé l’algorithme 
EM. Il s’agit d’une méthode numérique inspirée par la statistique, qui est in- 
tuitive et versatile. 


3.2.3 Algorithme EM : motivation et exemple 


L'idée sur laquelle repose la méthode dite « EM » est la reconnaissance 
qu’une modification des données simplifie le problème. En effet, si l’on connais- 
sait non pas les phénotypes, mais directement les génotypes, l’estimation serait 
triviale. 


Exemple 3.8 Supposons qu'au lieu des données y = (n1, ng, na, no), nous 
ayons æ — (MAA, MAO, MBB, MBO, MAB, Moo) où mx sont les personnes 
avec génotype K et donc MAA+mMAO = A4, MBB + MBO = NB, MAB = NAB, 
et Mmoo = no. La vraisemblance pour ces nouvelles données est : 


n! as 


TE AA pa po) 
MAA':::MOO: 


MAO 


Vx (PA, PB, Do) = 


2mBB MAB p2MOO 


p3 °°(2ps po) 2pA pB)"48p6 


2mAA+mAo+mMmAB ,2MBB+mMmBo+mMmAB,MAO+MmBo+2Mmoo 


XPA PB Po 


mBo ( 


La log-vraisemblance est : 


n(Vx(P4, PB, Po)) = constante + (2m44 + 2M4B8 + MAO) In(pa)+ 
(2m88 + mas + MB0)ln(pr) + (Mao + MBo + 2Mmoo)ln(po). (3.4) 
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Dans cette fonction, les polynômes en 0 ont disparu et l’estimateur du maximum 
de vraisemblance est facile à calculer : 




















=  _  2MAA +MAO + MAB 
PA — 
2n 
_ 2MmBB + MBO + MAB 
PB = ÿ (3.5) 
nm 
ee MAO + MBo + 2Mo0o 
po — On . 


Les situations où l'algorithme EM est utile peuvent être résumées ainsi. Avec 
les données dont nous disposons réellement, y, l’estimation est difficile. Avec les 
données plus fines, x, l’estimation est facile, maïs nous n’en disposons pas. Dans 
un contexte général, soient donc y5, les données observées et soit 0 le paramètre 
que nous souhaitons estimer. La densité des données est fy(y | 0) et la fonction 
de vraisemblance est V3-(0) = fs (Yobs | 0). L’estimateur Ÿ du maximum de 


2 2 


la vraisemblance est tel que elly: (0) = In (m @) > £y(0) pour tout 4. En 


ajoutant une composante d’information supplémentaire Z aux données Ÿ, la 
vraisemblance se simplifie. Tout en augmentant la complexité 


Y — (Y,Z)=Xx 


données — données augmentées 


la loi fx(x | 0) devient plus facile à analyser que fy(y | 4). Parce qu’on ne 
dispose pas de la valeur x,1,, on procède à une estimation en remplaçant 


{x(0) = m(Vx(9)) = In(fx(æobs | 0)) 
par son espérance mathématique 
Q(01n) = E (n (fx (X | 0) [Y = Vos: 0 = n) = E (Ux(0)|Y = Yobs: 0 = 7). 


L’espérance est calculée par rapport à la densité conditionnelle de X sous condi- 
tion Ÿ = Yobs- 

Le but ultime consiste à optimiser £3:(0) et l'algorithme EM y arrive en 
s’appuyant sur Q(6|n). La démarche est telle que l’on calcule une suite 6, 61, 
62,... d’approximations de ô 


Exemple 3.9 Dans l’exemple des groupes sanguins, le logarithme de la vrai- 
semblance des données augmentées (3.4) ne dépend que de 2mAA + 2mMmAB + 
MAO = NA +2N A8 +MAA, de 2mBB +mMAB +MBgo = 8 +2n48 +MB8B, et de 
mA0 +MmBo +2Mmoo = (naA—-mMmAA)+(n8—-mB8)+2n0o. Pour calculer l’espé- 
rance conditionnelle Q(pA,pB,polpA = pa, pp = py, bo = pb), il suffit donc 
de trouver les espérances E(mAAÏY = Yoss, PA = Pa, PB = Ph, DO = Po) et 
E(meBlY = Yoÿs, PA = Pa, PB = PR; Po = ph). Ce calcul est simple, car mAA 
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est le nombre d'individus de groupe sanguin À qui ont le génotype homozygote 
et suit donc une loi binomiale 


(pa) ) 
AA BA NA 
( (pa)? + 2p4 PO 
et de même pour MmBB 
(PB) ) 
mg © B (re —— 2 ——— |. 
(PB)? + 2pe Po 


Les espérances dont nous avons besoin sont égales à 


; ; (pa) 
E (man Venir be = nb ho) = par PA 
(maa | Yobss PA = PA: DB = PB; DO = Po) A Da + par 
| : | D’ 2 
E (mp8 | Y = Yovs, DA = Pa, PB = PB, Po = Po) = ns: W5) 


(PB) +2p5Do 
En substituant ces valeurs dans (3.4), on peut calculer la fonction Q. Ensuite, 
de nouvelles estimations du paramètre peuvent être calculé à l’aide de (3.5). 


En commençant avec des valeurs initiales p, p?, po et en alternant calcul de 
Q et optimisation de Q, on obtient ainsi une suite d’estimations. 


3.2.4 Algorithme EM : définition et exemple 


L’algorithme EM alterne le calcul d’une sorte de log-vraisemblance approxi- 
mative Q avec l’optimisation de cette fonction. Au départ, on choisit une valeur 
initiale du paramètre, 00. Ensuite, on utilise 4 pour calculer l’espérance des 
statistiques dont on a besoin pour déterminer Q(8[00). Puis on trouve la valeur 
de 0 qui maximise cette fonction Q. Cette valeur nous donne 61, et ainsi de 
suite. 

En général, le schéma de l’algorithme est le suivant : 


[ EMO | Choisir une valeur initiale 4 et poser à = 0. 


[ EM1 | Calculer Q(0 | 0;) = E (In(Vx(0))|0 = 6;, Yobs), où espérance est par 
rapport à la densité conditionnelle fx|(x | d;, Yobs)- 


[ EM2 | Maximiser Q(0 | 0;) par rapport à 0 et poser 0;:1 = argmax Q(0 | 6;). 


[ EM3 | Tester pour convergence (0;,1—0; & 0). Soit on s’arrête, soit on pose 
i=i+1et on reprend avec [EMI]. 


Exemple 3.10 Dans l’exemple 3.1 les données étaient telles que 


MAA + Mao = nA = 724 
MAB = NAB = 20 





MBB + MBO —NB — 110 


mMmoo = no = 723 
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avec n —= 724 + 20 + 110 + 763 — 1617. Si on commence les calculs avec 
pa = ph = ph = 1/3, les espérances conditionnelles de maA et de mp8 sont : 











1/9 
E = O0) = 7 = 21 
(maa | Vobs) ) 1/9 L 2/9 
1/9 
E O} = 10. — 362, 
(mes | Yobs) l 0 1/9 DL 2/9 363 
Avec (3.5) on trouve donc pour 61 = (p}, ph, pb) : 
2 x 241 + (724 — 241) + 20 
1 = _ 
ii 2 x 1 617 Du 
2 x 36,667 + (110 — 36,667) + 20 
1 2 ’ , — 
PEUT 2 x 1 617 er 
Po = 1-p4a—p8 = 0,65. 


Ensuite, on recalcule les espérances conditionnelles et ainsi de suite. La suite 
des estimations converge vers les valeurs estimées DA — 0,266, D — 0,041, 


fo = 0,693. 


3.2.5 Algorithme EM : propriétés 


L’algorithme EM ne converge pas forcément vers le maximum de la vrai- 
semblance V3(4), mais on peut démontrer le résultat suivant. 


Proposition 3.1 Dans l'algorithme EM, la suite des approximations 00, 01, 02,... 
vérifie 
Vy (di+1) Z Vy (6). 


Démonstration. Soit fy (y | 0) la densité des données observées et soit fx(x | 4) 
celle des données augmentées. Pour tout 6, on à 


Q(0160;)—Im(Vy(8)) = Elfln(fx(X | 0))| Ÿ = Yobs; 0 = 60;))] — In(fy (Yobs | 0)) 
à sl lé 
à Û fy (Vobs | 0) 


(AO ru cea 
- e| CRE Y = va = 


= Eflnfx(X}6;) —In fy(Yobs | 0) | Y = Yobs; 0i] 





Y = Yobs; 0 — ] 





Cette borne supérieure est valable aussi si l’on pose 0 = 6,,1. Il s'ensuit que 


In Vy (4:41) > Q(b;+1 | 6;) — Q(6; | 6;) + In Vr (6;) > In VWy(6;), 
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car Q(Gi41 | 0) — Q(6; | 0;) > 0. TI reste à démontrer l'inégalité (3.6), c’est-à- 
dire 


(LAID) |r eu, 022) 
IL (GA Y = vos, 8 = 0 < 
fx(X | 6) : _ 
(nu (ES) D = va 96). 


La preuve se base sur la remarque que le rapport 


Jx(x | 6) 
fY (Yobs | 0) 


n’est rien d’autre que la densité conditionnelle de X sous condition Y = Yobs- 
L’inégalité (3.6) est donc équivalente à 


fx (ay = Yobs » 0) 


Î Re D) 
fa (fx (&lY = Yobs, )) fx1v (tlY = Yobs, i)dz , 


ou bien 





) In ( Fx1y (&lY = Yobs, 0) 


fx (lY = Yobs n) fx GT T Yobs » 0j) dx > 0. 


Sous cette forme, il s’agit tout simplement de l’inégalité de Jensen. Parce que 
— In(u) est convexe en u, 


fx GY = Yobs 0) ) 
In ælY = 0 dx > 
/ (Cr = Yobs Pi) Fxiy (xl Yobs » Di) 


-n( fxir (&|Y = Yobs, 0) 
fx (lY = Yobs; 0i) 








fx G&lY = Yobs, 0i) a) = 0 


Malheureusement, l’algorithme EM ne fournit pas directement la matrice 
des deuxièmes dérivées partielles de la log-vraisemblance. 


3.3 Populations stratifiées et unions consanguines 


À la section 3.1, nous avons étudié les circonstances sous lesquelles s’ins- 
talle un équilibre entre les différentes formes alléliques d’un gène. Si deux sous- 
ensembles d’une population restent séparés lors de la procréation et si un mé- 
lange aléatoire n’a lieu qu’à l’intérieur des sous-groupes, les hypothèses du 
lemme de Hardy-Weinberg ne sont pas vérifiées. Quels seront les effets d’une 
telle situation ? 
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proportion : w 


Une population se divise en 
deux sous-populations de taille 
PAa = 2PAPa relatif w/(1 — w). Les indivi- 
dus des deux sous-populations 
se mélangent aléatoirement et 
les proportions des génotypes 
sont en équilibre : 


Pha = 2P'APa 


Pa > 2PAPa 
Pha = 2P4Pa 





proportion : 1 — w 


Les proportions des allèles dans la population entière sont : 


par = wpa+(1—w)p 
PR = wpa + (1— w)p, 


Même si dans les deux sous-groupes l’équilibre s’installe, ce n’est pas le cas dans 
la population entière. Si l’on regarde la fréquence du génotype homozygote AA 
on constate que : 


PRP = w Paa + (1— w) Pia = wpà + (1— w)p'à > (wpa + (1— w)p4)? 


Cette inégalité est tout simplement une conséquence de la convexité de la fonc- 
tion f(x) = x? et elle montre que, dans la population entière, les génotypes ho- 
mozygotes sont présents dans une proportion trop grande par rapport à l’équi- 
libre de Hardy-Weïinberg. En revanche, les hétérozygotes sont sous-représentés : 


PE < 2p4 pe POP. (3.7) 


En d’autres mots, si pour une raison ou une autre les unions ne sont pas alé- 

toires, il en résulte un manque d'individus avec génotype hétérozygote et un 

excès d'individus homozygotes. Le déséquilibre se manifeste par 
PP) PRE (OP) et RP SO pEe) 


7 
, N POP equil : 
et l'excès des homozygotes PFŸ — P44" vaut : 
PEP — PA 


2 
= wpà + (1 w)pa" — (wpa + (1 w)p4)? 


= w(pa pre) + (1-4) (4 — PAP) 


Cette quantité est effectivement non-négative et n’est rien d’autre que la va- 
riance des proportions de l’allèle À entre sous-populations. Si pa = p'1, l’équi- 
libre globale est valide et le déséquilibre le plus marqué se produit donc lorsque 
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pa =let pl, = 0. Dans ce cas, une des sous-populations est entièrement consti- 
tuée du génotype AA et l’autre du génotype aa. Aucun individu de génotype 
hétérozygote n’existe dans ce cas. 


Exemple 3.11 La maladie Tay-Sachs est une maladie génétique du type neu- 
rodégénérative. L'allèle a qui cause la maladie est recessif, c’est-à-dire seul le 
génotype aa est dangereux. La maladie est très rare, seulement une naissance 
sur 500 000. Dans des populations de petite taille, le taux peut monter. Dans 
la communauté juive européenne, par exemple, le taux de Tay-Sachs s'élève 
à environ une naissance sur 6 000. L'’excès d'individus homozygotes met en 
évidence une maladie génétique qui devrait être rare. 


Lorsque les unions se font dans un cercle limité, on parle de consanguinité. 
Cette notion est liée à l’existence d’ancêtres communs des deux parents d’un 
individu dans un passé proche. Un parent et son descendant partagent la moitié 
de leur génome. Deux descendants issus de la même union ont un quart de leur 
génome en commun. Pour cette raison, la variation génétique entre frère et 
sœur, entre sœurs, et entre frères est beaucoup moins grande que celle entre 
deux individus tirés aléatoirement. Cette réduction de la diversité génétique 
est l’effet principal de la consanguinité. Dans l’expérimentation génétique avec 
bactéries, levures, plantes, etc., l’utilisation d’unions consanguines est fréquente 
et éclaircit ce phénomène. 


Exemple 3.12 Les descendants issus de croisement de deux espèces de plantes 
sont des hybrides de génération F1. En croisant les individus de F\ entre eux, 
on obtient la génération F2 et ainsi de suite. Pour un gène quelconque, les 
deux plantes de la génération parentale P\ ont génotypes (a a2) et (a, as). 
Ces allèles peuvent être tous différents ou égaux, dans notre notation nous 
distinguons les quatre allèles pour nous rendre compte de leur origine. Les des- 
cendants F1 ont génotypes (a1 a), (a1 a), (a2 a) ou (a2 a) en fréquences 1/4 
chacun. Dans la génération F3, obtenu par croisement des individus F1, les 
douze combinaison des allèles parentaux sont représentés dans les proportions 
de Hardy- Weinberg. Les fréquences des quatres allèles sont toutes égales à 1/4, 
les génotypes « homozygotes » sont représentés en proportion 1/16, tandis que 
les génotypes mixtes ont fréquence 2/16. En F2 apparaissent donc des « homo- 
zygotes » (a1,a1), (a2, a2), etc. Il s’agit de plantes qui portent deux copies d’un 
seul allèle d’un ancêtre. 
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On peut se convaincre du ré- 
sultat énoncé ci-dessus en ré- 
fiéchissant de la manière sui- 


vante. Prenons pour exemple le 
génotype (a1,a1). Pour qu’un 








P 























F descendant F3 reçoive deux fois 
l’allèle ai, il faut que ses pa- 
rents soient porteurs de cet al- 

FE lèle. Cela se produit avec une 








probabilité de (1/2)? (voir des- 
sin ci-contre). Ensuite, le des- 
cendant doit chaque fois obtenir 
le bon allèle a de ses deux pa- 
rents. 


La chance pour cela est à nouveau (1/2)?, ce qui donne le résultat final de 1/16. 
Les quatre allèles sont entrés dans cette expérience dans la génération paren- 
tale. Les individus homozygotes de la génération F2, (ai a1), (a2 a2), (ai a), et 
(a, a,) ont deux copies du même allèle de l’un de leurs grands-parents. On dit 
que leurs allèles sont identiques par descendance (IBD, « identical by descent »). 
Ce phénomène est à la base de l’excès des génotypes homozygotes lorsqu'une 
population est stratifiée et les unions ne se font pas librement, mais à l’inté- 
rieur de strates. Nous allons voir plus tard que ce même effet se produit dans 
des populations finies. 


Pour quantifier le déséquilibre des génotypes dans une population stratifiée, il 
est utile d'introduire la notion du degré moyen de consanguinité F. C’est la 
probabilité qu’un individu tiré aléatoirement soit porteur de deux allèles IBD. 
Supposons qu’un gène possède deux allèles, À et a, et que F soit connu. Si, 
parmi les individus IBD, les génotypes AA et aa sont en proportion p4/pa et si, 
parmi les individus qui ne sont pas IBD, les formules de Hardy-Weinberg sont 
valables, il existe une liaison entre la fréquence P114 du génotype homozygote 
AA et le couple formé de F et p1 : 


P4aa — P{un individu aléatoirement séléctionné et de génotype AA} 
— P{lindividu est IBD et de génotype AA} 
+P{lindividu n’est pas IBD et de génotype AA} 
= Fpa+(i-F)r. 


Cette formule exprime le fait que le génotype AA peut résulter de deux façons. 
Avec la probabilité 1 — F, les deux allèles ont été tirés aléatoirement et l’allèle 
À est sorti deux fois. Avec la probabilité F', les deux allèles sont deux copies 
du même allèle d’un ancêtre et la chance qu’il s’agisse de l’allèle À est pA4. Si 
F = 0, la population est en équilibre. Si F = 1, les seules possibilités sont 
P11 = pA = 1 ou 0. 
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Inversement, on peut calculer F en connaissant P14A et pA : 
_ Paa —Pà _ PaaA — pà 


7 2 
PA — PA PAPa 





Le numérateur est égal à l’écart de l’équilibre du génotype AA. Parce que 


1 
PA + 2 PAa = PA, on à également : 


_ PA — Paa/2 — PA _ 2PAPa — PAa 


PAPa 2PAPa 


F 





ce qui est l’expression la plus intuitive. Ici, F exprime l’écart à l’équilibre du 
génotype hétérozygote, relatif à la valeur espérée sous l’équilibre. 


Définition 3.2 Si les unions dans une population ne se font pas aléatoirement, 
l'équilibre de Hardy- Weinberg est rompu dans le sens que Paa = (1—F)2pA pa < 
2pA pa. La quantité F est dite le degré moyen de consanguinité. 


Si l’on connaît les relations exactes entre individus — qui est parent de qui — 
on peut généraliser la notion du taux statistique de consanguinité qui s’applique 
à une population, à celle d’un taux individuel. 


Définition 3.3 Le degré de consanguinité F d’un individu est défini comme 
la probabilité que les deux allèles dont l'individu est porteur soient tous deux 
copies du même allèle d’un ancêtre. 


Exemple 3.13 Pour le calcul du taux F d’un individu, son historique généa- 
logique doit être connu. 


Les carrés représentent des 
°0 (ce) hommes, les cercles des 
femmes. Un trait lie deux 
individus qui se reproduisent et 



























































leurs descendants. Les symboles 

Se 5 à (petit cercle rempli et petit 
cercle ouvert) représentent un 

fa allèle particulier et un allèle 





quelconque. L'arbre dans cet 








exemple montre un homme issu 
d’un mariage entre une nièce 











et son oncle. L'individu en 
question est IBD et est porteur 
de deux copies d’un allèle de 
son grand-père. 
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3.3.1 Calcul de F 


On peut découvrir la formule pour F' en analysant soigneusement l’exemple 
précédent. 











Évidemment, l'individu en 
question ne peut être IBD que 
s’il existe un chemin qui le 


relie à un même ancêtre du 
côté parternel et maternel. 


ci Dans notre exemple, de tels 
































chemins existent aussi bien 





pour le grand-père que pour 
la grand-mère. Tous deux sont 
des ancêtres communs des deux 
parents. La figure ci-contre 
montre un exemple. 











Parce que l’allèle en question est transmis chaque fois avec une probabilité 1/2, 
la chance que l'individu soit IBD par le grand-père vaut 2(1/2)° = (1/2)#, où 
le facteur de 2 provient du fait que le grand-père possède deux allèles. Dans 
cette formule, nous avons supposé que le grand-père n’est pas IBD. S'il l’est, ses 
deux allèles sont identiques et il en donnera une copie à tous ses descendants. 
La chance que ces deux copies arrivent à leur but est done 2(1/2)°/(2(1/2)?) = 
(1/2)%. En mettant ensemble ces deux cas, la probabilité que l'individu soit 
IBD par le grand-père vaut : 


Fäescendant = (1/2) (1 . Fancètre) + (LP Puce 


T (1/2)4(1 + Fete) 


(L/2)RORREE d’ancêtres dans le chemin (1 + Foncètre) : 


où le chemin en question relie l’enfant par les lignes paternelles et maternelles 
au grand-père. 

Pour calculer la probabilité Fiescendant, il faut considérer tous les ancêtres 
les plus proches qui pourront transmettre deux copies du même allêle. Dans 
notre exemple, il faut donc également prendre en compte la grand-mère. En 
revanche, il n’est pas nécessaire de considérer les arrière-grands-parents, car 
dans leurs cas la transmission doit forcément passer par les grands-parents. 
L'expression générale du taux de consanguinité est donc : 


Fäescendant — ÿ 02) Len + F4) 
AEA 


où À est l’ensemble des ancêtres proches dont le descendant pourrait poten- 
tiellement hériter deux fois du même allèle et A est le nombre d’ancêtres de 
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l'individu dans le chemin qui le relie à l’ancêtre commun À de ses parents. 


3.4 Liaison entre gènes et méiose 


Si l’on s'intéresse à deux gènes ayant chacun deux allèles À,a et B,b, il 
y à neuf génotypes possibles, dont AABB, AaBB, aaBB et AABb, etc. En 
dehors du nombre plus grande de génotypes, il y a encore une différence plus 
importante entre la situation avec deux gènes et le cas d’un seul gène. Lorsque 
les deux gènes se trouvent sur le même chromosome et que le génotype est dou- 
blement hétérozygote (AaBb), on aimerait également connaître la combinaison 
exacte des deux allèles sur chaque chromosome. Ces combinaisons pourraient 
être soit (AB/ab), soit (Ab/aB). L'association des allèles sur une copie (mater- 
nelle ou paternelle) du chromosome est l’haplotype du chromosome par rapport 
aux deux gènes. Le génotype tout seul ne suffit pas pour déterminer les deux 
haplotypes. 

Dans le modèle de Wright-Fisher, les haplotypes d’une génération sont ti- 
rés parmi les gamètes de la génération précédente. Notons H1B, H4r, Hop, 
H,4 les fréquences des haplotypes. Clairement, ces fréquences contiennent plus 
d’information que les fréquences des génotypes. En effet, on peut les calculer 
par les formules P14BB = Hs PaBB = 2H14B Hap, etc. On peut arranger 
les probabilités des haplotypes sous forme de tableau de fréquences : 





H1B H 4 H14B + Has = pA 
H,B Ha H,B T ab — Pa 
Ha + Hg = pB | Has + Ho = pr 























On constate que les quatre probabilités ne sont pas libres et qu’on ne peut 
pas choisir n’importe quelles valeurs, car les sommes dans les lignes et dans les 
colonnes sont fixées. Le vecteur (H18, HA4v, HaB, Hab) à quatre dimensions se 
trouve dans un ensemble unidimensionnel. Un tableau de ce type est toujours 
de la forme : 
HAaB = pApB + D HA = pars — D 
HaB = PapB — D Ha = Paps + D 


pi 


où D peut être positif ou négatif, mais doit être tel que les entrées du tableau 
soient positives. À l’aide d’un tableau donné, on peut récuperer la valeur de D 
en calculant le déterminant : 


HAB Hay — HoB H4v = (pAPB + D)(Pa ps + D) — (pa pB — D)(pA pe — D) 


= PA PB Pa Do + D(pA PB + Pa Pb) + D? — PA Da PB Pb 
+ D(pA pv + Pa PB) — D? 


=. D(pA(pB + pb) + PalPr + PB)) 
= D. 
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Définition 3.4 Les deux gènes sont dits en équilibre de liaison, si : 


HA = pApB, Hip = PapB,.... 


L'équilibre de la liaision est analogue à l’équilibre de Hardy-Weinberg. Si les al- 
lèles étaient tirés de manière complètement aléatoire, cet équilibre serait vérifié. 
La valeur de D est une mesure directe de l’écart d’une matrice de fréquences à 
l'équilibre. 

Si deux gènes se trouvent sur le même chromosome, on ne s'attend pas 
à l'indépendance. Si un individu avec un génotype doublement héterozygote 
AaBb possède les haplotypes AB et ab, on pourrait penser que ses gamèêtes sont 
soit AB, soit ab, maïs jamais Ab ou aB. Par un tel processus, les combinaisons 
d’allèles des parent sont préservées dans les descendants, ce qui se manifestera 
dans le tableau des fréquences des haplotypes par un fort déséquilibre. Cela est 
correct si les deux gènes sont localisé très près sur le chromosome. Par contre, 
si la distance entre les gènes augmente, de nouveaux haplotypes peuvent se 
manifester dans les gamèêtes. Cette possibilité est très importante en vue du 
maintien de la diversité génétique. 


3.4.1 Méiose 


La division cellulaire ordinaire qui crée deux cellules à partir d’une cellule 
s’appelle mitose. Lors de ce processus, les chromosomes sont copiés et se par- 
tagent en deux groupes. Chacune des cellules est diploide et contient donc la 
totalité du matériel génétique paternel et maternel. Les gamèêtes, par contre, 
sont des cellules haploides qui contiennent une seule copie de chaque chro- 
mosomes. Que le processus de création de telles cellules diffère de la mitose 
semble assez naturel. Et que, lors de ce processus, le matériel génétique pa- 
ternel est mélangé avec le matériel maternel l’est aussi. Les gamètes sont les 
résultats d’un processus appelé méiose. Superficiellement, la méiose ressemble 
à la mitose. D'abord, chaque chromosome est copié (replication) et une divi- 
sion cellulaire crée deux cellules diploïdes. Une seconde division cellulaire nous 
amène à quatre gamèêtes haploïdes qui disposent d’une seule copie de chaque 
chromosome. 

Supposons qu’un individu soit doublement hétérozygote AaBb. Si les deux 
gènes se trouvent sur différents chromosomes, le processus de méiose copie 
chaque chromosome et crée ainsi un ensemble de 2 x 4 chromosomes porteurs 
de {A, À, a, a, B,B,b,b,}. Après une double division, des gamètes haploïdes 
avec une seule copie de chaque chromosome sont créés et les possibilités sont 
{A,B}, {A,b}, {a, B} et {a,b}. Par symétrie, chaque combinaison a une chance 
de 1 Si, en revanche, les deux gènes se trouvent sur un seul chromosome, les 
choses se passent différemment. 

Supposons que l’individu soit porteur des haplotypes AB et ab sur ses deux 
chromosomes. En cas de replication simple, 2 X 2 chromosomes sont créés, 
dont deux avec AB et deux avec ab, et les gamètes contiennent donc soit AB, 
soit ab avec une chance 1/2 pour chacun; sauf que, lors de la replication des 
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Figure 3.2 - Processus de crossing-over avec deux chromosomes homologues et deux 
gènes. Dans ce schéma, quatre crossings se sont produits dans le bout du chromosome 
montré. Du bas vers le haut, on commence à lire sur le chromosome gris, on « cross- 
over » vers le noir, on revient brièvement sur le gris, et après un passage sur le noir, 
on revient finalement sur le gris. Le nouveau chromosome du gamète associe les allèles 
À et b, ce qui constitute un haplotype nouveau. 


chromosomes, il y a également une phase de recombinaison génétique entre 
chromosomes homologues. Le processus physique qui se cache derrière est dit 
« crossing-over » dont un schéma simpliste est fourni à la figure 3.2. Lors d’un 
« crossing-over », les deux chromosomes homologues se cassent et se relient à 
Pautre bout du chromosome partenaire. D’autres processus d’échanges chromo- 
somiques existent également. Le crossing-over peut avoir lieu lors de la mitose 
et, dans ce cas, peut engendrer des dégâts, par exemple la perte de l’hétérozygo- 
sité dans une des cellules descendantes. En méiose, la recombinaison génétique 
assure que, même si un individu ne porte que les haplotypes AB et ab, les quatre 
haplotypes AB, ab et Ab, aB sont possibles dans les gamèêtes qui transmettent 
le génome aux descendants. 


3.4.2 Fraction de recombinaison 


Les gamèêtes d’un individu doublement hétérozygote Aa et Bb ayant les 
haplotypes AB sur une copie du chromosome et ab sur l’autre sont : 











gamèête AB ab | Ab|aB 
tir |i-rlr r 
probabilité 5 5 5 5 























où r est la probabilité d’une recombinaison. Ce paramètre est dit la fraction 
de recombinaisons. Si les deux gènes se trouvent sur différents chromosomes, 
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ces formules restent valables avec r — 1/2 ce qui implique que les fréquences 
des quatres haplotypes AB, Ab, aB et ab sont équiprobables. Ces proportions 
caractérisent la ségrégation mendelienne, c’est-à-dire les proportions théoriques 
que Mendel à pu confirmer dans son expérience. Lorsque deux loci se trouvent 
sur le même chromosome, la ségrégation des allèles selon les proportions 1/4, 
1/4, 1/4, 1/4 est l'exception plutôt que la règle. Dans son choix de phénotypes, 
Mendel a donc eu de la chance. Les gènes correspondant aux phénotypes qu’il 
avait choisis s’héritent de manière indépendante et ne sont pas liés. 

Il est assez évident que r, un concept purement génétique, est corrélé avec 
la distance physique qui sépare deux gènes sur le chromosome. Il est rare qu’un 
événement de recombinaision se produise entre deux gènes voisins ou proches 
Pun de l’autre. Si, en revanche, ils sont séparés d’une longue suite d'ADN, il est 
probable qu’un ou plusieurs « crossing-over » se produisent. Dans ce cas, r tend 
vers 1/2. Si, pour deux gènes, r — 1 %, on dit qu’ils sont séparés d’un centi- 
Morgan. La fraction de recombinaison r est une quantité que l’on peut parfois 
estimer dans des expériences de croisement semblables aux expériences de Men- 
del. Un centiMorgan correspond à une distance physique d’environ 105 paires 
de bases ADN. Pourtant, la relation exacte entre distance génétique et distance 
physique dépend du chromosome et varie même à l’intérieur du chromosome. La 
figure 3.3 montre de manière schématique la relation entre distances génétiques 
et physiques. 


3.4.3 Déséquilibre de la liaison 


Le tableau 3.6 indique les fréquences des différentes combinaisons de deux 
gènes à deux allèles se trouvant dans les gamèêtes d’un individus, à condition 
de connaître les haplotypes de l'individu ainsi que la fraction de recombinaison 
entre les gènes. 


Table 3.6 —- En connaissant la fraction de recombinaison et les haplotypes d’un indi- 
vidu, on peut calculer la répartition des allèles dans une gamèête. 











individu gamètes et leurs probabilités 
haplotypes AB Ab aB ab 
AB/AB 1 0 0 0 
AB/Ab 1/2 1/2 0 0 
AB/aB 1/2 0 1/2 0 
AB/ab |(1-r)/2 r/2 r/2 (1—r)/2 
Ab/Ab 0 1 0 0 
Ab/aB r/2 (1—7r)/2 (1—7r)/2 r/2 
Ab/ab 0 1/2 1/2 0 
aB/aB 0 0 1 0 
aB/ab 0 0 1/2 1/2 
ab/ab 0 0 0 1 
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Figure 3.3 — La courbe montre de manière schématique la relation entre la fraction 
de recombinaison r (distance génétique) et la séparation en paires de bases ADN 
(distance physique) de deux gènes sur le même chromosome. 


Soit Hp, 


H'3, etc. les probabilités des haplotypes dans la génération des 


a 


descendants et Hy, etc. celles dans la génération des parents. À partir du 
tableau 3.6, on trouve : 


/ 
H1B S 


1 1 1— 
Hans hands CH" 





2 2 2 2 
2H 45 Hp 
H A8 (Ha + H av + HaB + Ho) —THAaB Ha 
+r Ar HaB 
HAaB +7 (H4v HaB — HA4B Hw) 
H AB — TD. 


De la même façon : H°, = Ha —rD, H', = Ha +rD, Hip = Hap +rD. 


Définition 3.5 La quantité D = H1B Hay — H4r Hp est dite le déséquilibre 
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de la liaison. Si D = 0, les deux gènes sont en équilibre et He, = H;y pour 
tout choix de x et y. 


En observant une population dont les unions sont aléatoires et les généra- 
tions non chevauchantes, on notera que le déséquilibre D converge vers zéro. 
Dans le passage d’une génération à la prochaine, le déséquilibre devient : 

D'= Hip Ha — Has Hop = (Has — D) (Ha — rD) 


(e 


— (HA + rD) (Hp + rD) _ D(1 — r). 


Après k générations, la valeur de D diminue ainsi à D(1—r)" et converge vers 0 
lorsque k — co. Pourtant, cette convergence peut être très lente, lorsque deux 
gènes sont des proches voisins sur le même chromosome et r est petit. 

Une population en équilibre est telle que la matrice 


HA4aB HA 
HoB How 


est singulière car son déterminant D est égal à 0. Lorsque D est zéro, la matrice 
est de rang 1, c’est-à-dire 


HaB Has | __{ pApB par 

Hair How PaPB Palo ] 
À l'équilibre, les haplotypes sont donc constitués par tirage aléatoire et indé- 
pendant des allêles. 


3.4.4 LOD score 


L'étude de la liaison entre gènes est un outil fondamental de la génétique 
expérimentale. Une nouvelle mutation se manifeste toujours dans un individu 
avec un certain haplotype auquel s’ajoute la mutation. Les descendants qui sont 
porteurs de la mutation sont en grande mesure également porteurs de l’haplo- 
type, qui devient ainsi un indicateur de la mutation. On peut donc utiliser la 
liaison entre marqueurs génétiques pour : 

— déterminer l’âge d’une mutation dans une population dans laquelle la 

mutation en question à été introduite par un fondateur ; 

— déduire larrangement des gènes d’un chromosome et ainsi en déduire une 

carte génique. 

Le principe consiste à déterminer r(4,j), la fraction de recombinaisons 
entre deux loci à et j. Ensuite, on arrange les loci linéairement. Dans 
l’exemple suivant, le tableau donne les fractions de recombinaisons entre 
1 et 2, entre 1 et 3, et entre 2 et 3. L’arrangement des loci est 1 —3—2: 





î | î 1 2 3 

1 —— 04 0,1 
2 0,4 —— 0,2 
3 0,1 02 —— 
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— corréler des marqueurs génétiques avec des maladies (phénotypes) pour 

rechercher les causes génétiques de maladies ; 

— corréler les marqueurs génétiques avec des caractères souhaitables dans 

des plantes ou des animaux, les dénommés caractères quantitatifs. 

Sur la base des génotypes de triples formés d’un descendant et de ses pa- 
rents, on peut parfois déterminer le nombre de recombinaisons entre deux gènes. 
Prenons comme exemple un couple avec génotypes AABB et AaBb. Parmi huit 
descendants, deux ont génotype AABB, trois ont le génotype AaBb, deux sont 
AABb et un est AaBB. Que peut-on dire sur la liaison entre ces deux gènes ? 
Si les arrangements des allèles du parent doublement hétérozygote sont AB et 
ab, il s'ensuit que les trois descendants avec génotypes AABb et AaBB sont 
des recombinants. La probabilité d’une recombinaison est donc estimée comme 
étant 3/8—0,375. Pour tester la signification de ce chiffre, on peut calculer 
le score LOD (« log odds ratio >). Soit r la probabilité d’une recombinaison 
et L(r) la probabilité conjointe des huit génotypes, c’est-à-dire la fonction de 
vraisemblance ; un calcul élémentaire donne 


L(r) = ([1-r1/2) (r/2)°, 


car le parent avec AABB transmet AB à tous les descendants, tandis que 
l’autre transmet AB ou ab avec la chance (1—r)/2 et Ab ou aB avec la chance 
r/2. Si aucune liaison entre les deux gènes n’existait, alors la probabilité d’une 
recombinaison serait r = 0,5. La probabilité des génotypes des huit descendants 
se calcule dans ce cas comme L(0,5) = 0,258. L’estimateur de r qui maximise 
la vraisemblance L(r) vaut À = 3/8. 


Définition 3.6 Le score LOD basé sur n triplets de parents et de descendants 
avec un nombre de m recombinants vaut : 


maxocrcos L(r) (= m}/f2n})"-" (m/20})" 
"(0,5) } = o80 ( (Ja ). 


Traditionnellement, le score LOD doit dépasser 3 pour pouvoir rejeter l’hypo- 
thèse de gènes non liés. 








LOD = logo ( 


Dans notre exemple, L(f) — 0,00001965, L(0,5) = 0,0000153, L(r)/L(0,5) — 
1,29 et le logarithme à base 10 de ce rapport vaut log,6(1,29) = 0,11 et 
ne donne en rien une indication d’une liaison. Si nous avions observé trois 
recombinaisons en vingt-trois essais, le score LOD aurait grimpé au-delà de la 
borne 3. 

La théorie statistique montre que sous l’hypothèse A, : r = 0,5, le LOD 
suit une loi khi-deux. On pourrait donc formaliser davantage le test LOD. La 
statistique du test du rapport de la vraisemblance est 


2 In(L(f)/L(0,5)) = 21n(10) logo(L(f)/L(0, 5)) = 4,605LOD. 


Un score LOD de 3 est égal au quantile (100 % — 0,02 %) de la loi x. 
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3.5 Exercices 


1. Lors d’une étude médicale, on a déterminé le génotype de 1 000 personnes. 


Les nombres observés étant 


AA Aa aa 
652 310 38 


On désire savoir si la population est en équilibre de Hardy-Weinberg. 
Effectuez le test du khi-deux (test de Pearson) et interprétez le résultat. 


. Par rapport à un gène à deux allèles, on compte 6 % d’hétérozygotes dans 


une population. Quelle est le pourcentage d’homozygotes ? 


. Si une personne sur 1 600 souffre d’une maladie génétique causée par 


un allêle récessif, quelle proportion de la population est porteuse de cet 
allèle ? 


. Considérez une population avec un nombre égal de femmes et d'hommes 


formant des couples aléatoires. Soit un gène situé sur le chromosome X 
avec deux allèles (X4, X4). Le génotype d’une femme qui a l’allèle a sur 
le premier X et A sur le deuxième sera notée XX et un homme avec 
un a sur le X sera noté X°Y . On considére que la fréquence p de l’allèle 
X4 dans la population est la même pour les femmes et les hommes. 


(a) Donnez séparément, pour les hommes et pour les femmes, la liste 
des gamètes possibles et leurs fréquences pour la génération F5. 


(b) Calculez les fréquences des génotypes que l’on observera dans la gé- 
nération F1. Comparez-les avec les fréquences des génotypes F1. 
Calculez la répartition conditionnelle des génotypes pour hommes 
et femmes. 


(c) Si X% est un facteur récessif causant une condition (comme par 
exemple l’hémophilie) et si p — 0.9, donnez la part de la population 
qui aura la maladie en sachant leur sexe. 


. Considérez une population avec un nombre égal de femmes et d'hommes 


formant des couples aléatoires. Supposons que, dans la population, la 
fréquence de l’allèle À parmi les femmes (f{) ne soit pas la même que 
celle des hommes (m°). Soient fi et m1 les fréquences de l’allèle À parmi 
les femmes et les hommes de la première génération, et f4 et m2 celles 
de la génération suivante. 


(a) Calculez les fréquences et génotypes des descendants masculins et 
féminins. 
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(b) Calculez fl et ml en fonction de f{ et m%. 


(c) Exprimez f% et m2 en fonction de f1 et ml. En itérant, faites le 
calcul pour fX et m' ou n signifie la génération n. Qu'est-ce qui se 
passe lorsque n — © ? 


6. Considérez un gène avec deux allèles À, a. On dénote par (P44, Paa, Paa) 
les fréquences des individus avec génotypes AA, Aa, aa et par pA la fré- 
quence de l’allèle À. Supposons que, pour le gène considéré, les accouple- 
ments ne sont pas aléatoires et que, pour un certain coefficient d, ils ont 
la forme suivante. 


Paa = pà +d, 
Pa = 2PAPa — 24, 
Pia = pè + d. 


(a) Donnez les conditions de bord nécessaires pour d afin que le système 
ci-dessus ait un sens. 


(b) Soient n4A,1Aa et Naa les nombres des génotypes AA, Aa et aa dans 
un échantillon de taille n = n44 + NAa + Naa - On modélise ces fré- 
quences par une loi multinomiale de paramètres (n; P44, Paa, Paa) - 
Déterminez l’estimateur du maximum de vraisemblance (MV) des 
paramètres p4 et d en utilisant l’estimateur MV de P14, Pa et 
Pise 


7. Soit un générateur de nombres aléatoires qui fonctionne de la manière 
suivante : le générateur choisit au hasard une densité f; de la liste prédé- 
finie f1,...,/f, et simule ensuite une valeur selon cette loi. On dénote par 
Ti la probabilité que la densité choisie est f;. Ainsi, on aura le vecteur 


y = (rss emo) 


< : g-1 
comme paramètre inconnu et Ty; = 1 — D 197, mi. 


(a) Déterminez la densité d’une v.a. X donnée par le générateur ci- 


dessus. 
(b) Si t1,...,2n est un échantillon qui a été créé avec le générateur, 
donnez la log-vraisemblance {(Y;x1,...,1,) et déterminez le sys- 


tème d’équation qui serait à résoudre dans l’approche du maximum 
de vraisemblance. 


(c) Pour pouvoir appliquer l'algorithme EM, on considère les données 
augmentées (x;,z;), où le vecteur 2; = (2,1,...,2,4) est t.q. 2j; = 1 
si x; a été simulé avec f; et 2j; = Osinon,i = 1,...,get j=1,...,n. 
Déterminez la vraisemblance des données augmentées et spécifiez les 
étapes de l’algorithme EM pour estimer Y. 
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(d) 


Comment faut-il modifier l’algorithme ci-dessus si f; est la densité 
d’une loi normale W{u:;,0?) et si le paramètre à estimer est W — 


2 
(Ts es Med bts en ) ê 


8. On considère deux gènes (situés sur le même chromosome) à deux allèles 
chacun, À, a, B et b. Soient HA, H%,, H%X, H7, les probabilités des 
haplotypes dans la génération n. On aura donc 


Soient PA, Pa, PB et pe les fréquences des allèles À, a, B et bet soit r la 
fraction de recombinaison. 


(a) 


(b) 


(d) 


Donnez la liste de toutes les combinaisons possibles des haplotypes 
d’un parent, et pour chaque haplotype, calculez les gamètes qu’il 
peut générer avec leurs probabilités. 


Déduisez de a) que 
n n—1 
ab = TDi; 


où Dh = HK3H7, — H,H%8. On appelle D, le déséquilibre de 
liaison et on dit que la population est en équilibre de liaison pour la 
génération n si D, = 0. 


Le déséquilibre de liaison satisfait l’équation 
H% = PaPo + D». 


Utilisez cette information pour déterminer D, en fonction de D, et 
pe 


Esquissez le graphe de D,, pour différentes valeurs de r en supposant 
Do > 0. 


9. Soit F le taux de cosanguinité. On dénote par (P44, PAa; Paa) les fré- 
quences des individus avec génotypes AA, Aa, aa et par (pA) la fréquence 
de Pallèle À. La population se propage uniquement par autofécondation. 


(a) 


(b) 


(0) 
(d) 


Démontrez que la proportion P41 des homozygotes vaut 





PaA = pa — pA(I — pAa)(1 — F). 


Démontrez que PAA peut aussi écrire par 

i Paa = pa +pa(l-paF, 

ii. Paa = Fpa +pi(i-F). 
Dessinez l’arbre généalogique de l’autofécondation et calculez F, en 
fonction de F}_1, où l’indice t compte la génération. 


Déduisez une récursion pour 1 — F;. 


Qu'en concluez-vous si F5 = 0? 
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10. Considérez les deux arbres généalogiques suivants, 


(D (I 

. . 
Œ) 
ie 

@ @ 


où un trait reliant deux individus signifie que l’individu en haut donne 
un gamèête à l'individu en bas. On dénote par FA la probabilité d’auto- 
zygocité (que la personne soit IBD) pour À, par F3 celle pour B etc. 


@ 
o 
® 
2 = 


< 
(À — 
eo 


8 -® 
20 
se 


(a) Calculez la probabilité d’autozygocité FG, pour l’arbre généalogique 
(1) 

(b) Calculez la probabilité d’autozygocité Fa, pour l’arbre généalogique 
(IT). 

(c) L'arbre (I) correspond à un accouplement entre cousins. Supposons 
que F4 = FB = 0. Soit q = 0,01 la fréquence d’un allèle récessif 
a qui est responsable pour une certaine maladie rare. Comparez le 
risque d’être atteint de la maladie pour G avec celui pour un individu 
issu d’un accouplement sans ancêtres communs. 


Chapitre 4 


Création et destruction 
de la diversité génétique 
dans une population 


L'évolution des espèces se base, selon la théorie de Ch. Darwin, sur un équi- 
libre entre un processus qui modifie le génome et crée une diversité génétique, 
et un processus de sélection qui favorise la procréation et la survie des espèces 
bien adaptées à leur environnement naturel. Dans ce chapitre, nous présente- 
rons quelques modèles mathématiques utiles pour analyser la création de la 
diversité génétique. 


4.1 Mutations 


Les changements dans le génome sont appelés mutations. Les mutations se 
produisent régulièrement et sont dues à divers effets, tels que : 

— des fautes introduites lors de la replication des chromosomes ; 

— les conséquences d’une infection virale; 
les influences physiques environnementales telles que la radiation UV ou 
gamma ; 

— des réactions chimiques entre des molécules génomiques et d’autres mo- 

lécules ; etc. 

Les mutations peuvent avoir des causes et des formes multiples. Le génome de 
l’homme est constitué d'environ 3,2 x 10° bases A, T, C ou G (voir section 
6.1). Toute base peut être modifiée ou supprimée ce qui crée potentiellement 
quatre mutations différentes par base. Il y a donc environ 


43*10° _ 100:6X3*10° __ 1p2:4x10° 


mutations différentes. À cela s’ajoutent encore d’autres possibilités. La conclu- 
sion de ce simple calcul est qu’il existe une quasi-infinité de mutations possibles. 
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Les modèles de carcinogenèse comptent sur des mutations dans des cellules 
souches des organes. Ce type de mutation est dit « somatique ». Si les gamètes 
sont touchés, c’est-à-dire si une mutation est transmise aux descendants, on 
parle de mutations germinales. Dans la suite du texte, c’est surtout ces muta- 
tions germinales qui nous intéressent. 

Le taux de mutation d’un gène par génération est défini par la probabilité 


1 = P{un gamète porte un allèle nouveau, 


différent des deux allèles de l'individu}. 


Dans une population de N individus, la proportion d’allèles nouveaux intro- 
duits dans une génération est une variable aléatoire dont l’espérance mathé- 
matique vaut y. Parce que chaque individu est porteur de deux allèles, le taux 
de mutation par allèle est 4/2. Dans nos calculs, nous allons souvent poser 
u = 10%, ce qui semble être un chiffre assez réaliste. 


4.1.1 Mutation neutre (« non-deleterious ») 


On peut classer les mutations selon leurs effets biologiques. Si l’allèle nou- 
veau créé par la mutation n’a pas d'effet sur la santé et la fertilité du descen- 
dant, on parle d’une mutation neutre. Considérons un modèle très simple de 
deux allèles (+ et —). L’allèle + est l’allèle sauvage (« wild-type »), la forme 
la plus fréquente du gène. L’allèle — représente soit toutes les formes mutées 
de l’allèle, soit une mutation particulière qui se produit de manière répétée. 
Supposons que la mutation soit irréversible avec taux 4: : 


re 


Soit p.,(t) l'espérance mathématique de la fréquence de l’allèle + en généra- 
tion t. L'analyse de l’espérance est intéressante en particulier pour une popu- 
lation de grande taille, mais on ignore la variation due à l’échantillonnage. On 
trouve une formule très simple : 


p+(+1)=(1—u)p4(e). 


Si l’on poursuit, on à 


p+(é+k) = p4 (01 — p)° = p+(0) exp(kn(1 — u)) & p+(6) exp(—ky). 


Comme mentionné ci-dessus, ce modèle s’applique en particulier à des points 
chauds («4 hotspots ») mutationnels où la même mutation se produit à nouveau 
et de manière répétée génération après génération. Étant donné le faible taux 
de mutation, on constate qu'il faut un nombre considérable de générations pour 
qu’un tel mécanisme montre des effets appréciables. Notons que les humains 
existent sur Terre depuis un nombre de générations de l’ordre de 10 000. La 
figure 4.1 illustre l’évolution de p}(t). 
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Figure 4.1 — La courbe montre la proportion de l’allèle p4 en fonction du nombre 
de générations si y! = 10 Ÿ. Jusqu'à { — 10 000 générations, l’approximation linéaire 
p+(t) = 1 — ut est très bonne. L’âge de l’homo sapiens est autour de 200 000 ans ou 
environ 10 000 générations. 


Si l’on ajoute la réversibilité 


+ 


cf le 


on trouve, pour une grande population 


pa(t+1) = (1—u)p+(t) + (1— p+(#))v. 


Lorsque t — co, cette récursion converge vers le point fixe 


PF =(1-u)p$ +(1-PP)v 





DE 1+u+v) =v 
V 


OO 
Fe JE 
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À nouveau, la convergence est très lente car la récursion peut être réécrite 
comme 


@+(t+1)-p#)=(1—u-v)(p+() —-p?) 


et (1 — u — v) est très proche de 1. 


4.1.2 Mutation dommageable et récessive (« recessive de- 
leterious ») 


Ici, l’allèle muté — est dommageable dans le sens que les individus à gé- 
notype —— ne se reproduisent pas. Dans ce cas, un équilibre s’installe entre 
lallèle sauvage + et l’allèle dommageable —. Pour trouver l’équilibre, il faut 
passer par les génotypes, car la zygosité joue un rôle. Si, en génération t, la 
proportion de l’allèle — vaut p_(t), les génotypes viables ont une proportion 
P,+(t) = (1-p-(t))?et P,_(t) = 2p-(t) (1—p-(t)). Les individus à génotype 
—— ont une proportion P__(t) = (p_(t))? et ne se reproduisent pas. Parmi les 
individus qui se reproduisent, la proportion des ++ vaut donc 


G-»-(b} _1-p-(® 
(—p-())+2p-(t)(1—p-()) 1+p-(t) 
tandis que celle des hétérozygotzes +— vaut 
2p_(t)(1 — p-(#) __2p-(#) 
(—p-())+2p_(#)(1-p (#8)  1+p-0@) 
Ainsi, dans la génération suivante : 


1—p-(t) , p-(6) )- p-(t) _u+p-(t) 
1+p-() 1+p-(@6)/ 1+p-()  1+p-() 














p-t+1)=u. ( 
La valeur à l’équilibre p® vérifie donc 


a us co (] C0 __ 00 œo\2 
DE pepe co pL(A+pt)=utpe =  (p?) =. 








L'équilibre qui s’installe est tel que la proportion des individus qui ne se repro- 
duisent pas et dont les allèles sont perdus (p_(t))? est égale à y, la proportion 
espérée des nouveaux allèles mutés qui sont créés dans chaque génération. Si 
u = 1075, on trouve donc : 


p© = 3 x 10%, 


c’est-à-dire que la fraction des individus hétérozygotes portant l’allèle domma- 
geable est environ 


P,_-=2x3x10 *& 0,6 % de la population. 
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4.1.3 Mutation dommageable dominante (« dominant dele- 
terious ») 


Dans ce cas, aussi bien le génotype —— que +— ne se reproduisent pas et la 
proportion p_(t) est égale à 4 tandis que la proportion P}-_(t) est à peu près 
2u, le double du taux de mutation. 


4.2 Sélection 


La sélection est un mécanisme qui fait prospérer certains génotypes plus 
que d’autres. Pour décrire mathématiquement la sélection, on associe à chaque 
génotype une fitness Wyénotype Proportionnelle à sa chance de reproduction. 
Pour un gène à deux allèles, le passage d’une génération t à la prochaine t +1 
est donc représenté par les formules suivantes : 





Paa(t) = pit) Paa(t +1) = pA(t) waa/ü(t) 
Paa(t) = 2pA(t)paltt) — Paatt +1) = 2ps (£) Pa(t) WAa/&(t) 
) Prat + 1) = pi(t ) Waa/W(t ) 


génération t génération t{ +1 











Pour normaliser la répartition en génération t + 1, on doit diviser par 


w(t) — pÀ (t) WAA + 2pA (t) Pa (t) W Aa + pi (t) Vaa » 


la fitness moyenne (en génération t). 
La dynamique de ce modèle est la suivante : 


pa(t +1) = pA(t) waa/&(t) + pA(t) pa(t) Waa/®(t) ; (4.1) 


c’est-à-dire 


Apa(t +1) = pa(t +1) — pa(t) 
_ PA(E) Waa — pa(E) W(t) + pA(E) Pa(f) W Aa 











w(t) 
== pà (t)Pa (t) VWAA — 2pÀ (t)Pa (t) W Aa + PA (t) Pa(t) VWAa — PA (é) p? (t) Vaa 
w(t) 
__ PA(E) pa(t) [pA(E)(waa _. + Pa(t)(WAa — Waa)] (49) 


Dans la dernière égalité, nous avons utilisé le fait que pa(t) = 1 — pit). 
La fitness marginale de lallèle À, wa(t), est égale à la valeur de la fitness 
que l’on peut attribuer à l’allèle À. Pour la calculer, on tire un des allèles À par 
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hasard dans la population. Avec une probabilité proportionnelle à p4(t)?, l’allèle 
provient d’un individu avec génotype AA et, avec une chance proportionelle à 
2pA(t)Palt)/2, il s’agit d’un individu avec génotype hétérozygote. La fitness 
marginale vaut donc : 





mat) = PA (t)?w 44 + pA(#) Pa(t) W Aa 
pA(t)? + pA(t) pa(t) 


En faisant appel à cette notion, on peut récrire Apa(t + 1) : 


pA(t) (wA(t) — w(t)) 
w(t) È 


= pA(t) WAA + Pa(t) WA : 








Apa(t +1) = 


Cette formule montre que la fréquence de l’allèle À augmente lorsque la fitness 
marginale est plus grande que la fitness moyenne et qu’elle diminue dans l’autre 
cas. La sélection tente ainsi d'augmenter la fitness de la population. 

Dans des applications, on introduit souvent la paramétrisation suivante : 


WAA =; Waa—=l—-hs et wi = 1—Ss, 
avec s le coefficient de sélection contre aa (si s > 0) et hle degré de dominance 
(si h > 0). 


On peut distinguer les cas suivants, représentés sous forme graphique à la 
figure 4.2. 
I: h = 0: WAA = 1, WAa = 1, Waa = 1—5S 
l’allèle À est dominant et favorisé par la sélection 
(s = 1 correspond au cas dommageable et récessif). 


IT: h—=1/2: waa = 1, waa = 1 — 8/2, Waa — 1—S 
l’effet des allèles sur la fitness de l'individu est additif. 


IT: h=1: WAA = 1, WAa = 1—S, ; Waa = 1-5 
l’allèle À est récessif, mais favorisé par la sélection 
(s = 1 correspond au cas dommageable et dominant). 


Dans ces trois cas, la population tend vers p%Ÿ = 1; l’allèle À remplace 
complètement l’allèle a. Cela est une conséquence de w4A > WA > Waa. Dans 
d’autres cas s’installe un équilibre caractérisé par l’équation 


Apa(co) = 0. 


4.2.1 Équilibres 


Si le génotype hétérozygote est supérieur (« overdominance »), c’est-à-dire 
Si WAa > WAA Et WAa > Waa (À < 0, 8 > 0), l'équilibre est caractérisé par : 


pA(CO)(wAA — WAa) + (1 — pA(oO)) (WA4a — Waa) = 0. 
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Figure 4.2 - La courbe pa(t) en utilisant différentes valeurs du paramètre À et pour 
8 < 0. Au début, la proportion de l’allèle À est très faible, mais à la longue, c’est 
l’allèle a qui est éliminé de la population. Pour h < 0, les deux allèles trouvent un 
équilibre. 








( ) —Waa + WAa 1—sh—-1+8s 

O0 — — 

Re —(WAA + Waa) + 2W4a  1—sh—-1+s+1—-5sh—1 
1—h 1+}h] 





Le pol. 


L’élimination de l’allèle À ou de l’allèle a sont deux autres solutions de À pa(oo) = 0, 
mais ces deux états ne sont pas stables. En les perturbant en posant pa(t) = € 
ou paA(t) = 1—E, la proportion pa(t) converge vers pa(oo) = (1 — h)/(1 — 2h). 
Un autre type d’équilibre s’installe si l’hétérozygote est inférieur, c’est-à- 
dire Waa < WAA Et WAaa < Waa. On obtient la même valeur qu'avant pour 
pA(oo) mais, cette fois, la situation pa(t) = pa(oo) + € est instable et converge 
vers l’extinction de l’allèle À ou de l’allèle a. On peut distinguer les deux cas, 
en considérant la fitness moyenne d’une population en fonction de p4. On à 





(pa) = pAwAA + 2pA(1 — pA) Waa + (1 — PA) Waa ; 
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Figure 4.3 - À gauche, la solution intermédiaire est la bonne: à droite, ce n’est pas le 
cas. Il est à noter qu’à droite une population pour laquelle p4 & 1 n’est pas optimale 
par rapport à sa fitness mais il s’agit quand même d’une situation stable. Si l’on à 
pa(t) = 1—E, la population se rééquilibre vers pa(00) = 1. Elle ne peut pas traverser 
le trou de fitness pour parvenir à la meilleure solution p4(oo) = 0. Cela est dû à notre 
hypothèse de taille de population infinie. Sinon, par des effets d’échantillonnage, ce 
passage vers pA(oo) — 0 est possible. 


et, dans chaque cas, la sélection souhaite maximiser la fitness moyenne (figure 

4.3). Lorsque w 44 > WAA Et WAa > Waa, la Valeur maximale est prise en p4(oo). 

Mais, si WAa < WAA Et WAa < Waa, PA(®) correspond à la valeur minimale. 
Nous pouvons généraliser notre modèle de sélection et introduire des muta- 


tions (A # a). Cela est d’un intérêt particulier lorsque a est dommageable. La 
généralisation de (4.1) est la suivante : 


pA(t +1) = (pa(t)*waa/& + pa(t) pa(t) Waa/&)(1 — y). 


Cela exprime simplement le fait que, lors du passage d’une génération à la 
prochaine, une fraction u des allèles À se transforme en a. 
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Si h = 0, seul le génotype aa à une fitness réduite : 
WAA = WA = 1 et Waa = 1-8. 
L’équation de l'équilibre est donc : 
(pa(co)? + pa(oo) pa(oo)) (1 — y) 


pA(co)? + 2p4(00 )pa(00) + pa(oo)}(1 — s)) 
= 


pA(oo) (pa(oo)? + 2pa(oe)(1 — pa(oo)) + (1- pa(oo))?(1 — s)) = (1-y)pa(ce) 
pa(oo)?(1 — 2+ (1— 8)) + pa(oo)(2— 2(1— s)) + (1— 5) —(1— y) = 0 
s(pa(oo)}? — 25 pa(oe) — 1 +8 =0 + pa(oc) = Vafs. 


Si, en revanche, h > 0 (dominance partielle de l’allèle a), alors 





pa(oo) = 


au 


Pa(oo) & hs” 


4.2.2 Équilibres démographiques 


Une analyse grossière de la dynamique d’une population est possible en la 
divisant en tranches d’âge. Soit 


n(t) = (n1(t),no(t),...,nx(t)) 


le nombre moyen d'individus à la génération t — 0,1,2,... dans les classes 
d'âge 1,2,...,k. Pour décrire la dynamique créée par naissances et par décès, 
on introduit les paramètres de fécondité et de mortalité : 

fifa... fr 

mi, M2,...,Mg = 1. 


La mortalité m; est égale à la probabilité qu’un individu de la classe d’âge à 
meure avant d'atteindre la classe à + 1. La fécondité f; est égale au nombre 
moyen de descendants d’un individu de la classe d’âge à, avant d’atteindre 
la classe à + 1. Dans ce modèle simple, ces paramètres restent inchangés 
d’une génération à l’autre. Sous cette hypothèse, le vecteur n(t) évolue selon 
l'équation 

n(t +1) = Lg n(t) 


où Ly € RÉ*F est égale à 


fi 2 fr fe 
1m O0 ::. 0 0 
Le = | ; ; . | 


0 0 es 1 my 0 
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La première ligne du système 
m(E+1) = fini) ++ frnk(t) 
compte simplement le nombre moyen de naissances, tandis que 
nt) = (—-mi ins 16) (=2,...,k) 
compte le nombre moyen de survivants. Notre équation à comme conséquence 
n(t) = Lin(0). (4.3) 
Exemple 4.1 (Fibonacci). Si f1 — fa = 1 et m1 — 0, on obtient la matrice 
60 


et en commençant avec n(0) = (SE la suite des populations est : 


no) = (}snt = Cine = (int = (Jinco = ()s. 


La suite des valeurs de la classe d’âge 2 est : 
114525358132, 


les nombres de Fibonacci. À la longue, un équilibre s’installe dans le rapport 
des nombres d'individus dans les deux classes 

0 1 1 2 3 5 2 

LTD 203 He 1+V5 


Cela s'explique par les propriétés qui découlent de 





n(t) = Lén(0). 
Si n(0) est un vecteur propre de La, c'est-à-dire si 


alors n(t) = \n(0). Si n(0) n’est pas un vecteur propre, le résultat reste ap- 
proximativement vrai, avec À la valeur propre la plus importante. Dans notre 
exemple, les valeurs propres vérifient : 


EX AV 6 : 
det( ; 3 )=2 -)-1=0 





et donc À = 1/2+1/2 V5. La valeur propre la plus grande est (1 + V5)/2 = 
1,618. 
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L'exemple montre que l’analyse de (4.3) passe par une bonne compréhension 
de la matrice L;. Les valeurs propres À de Lz£ vérifient 


det(Lx — À 1y) = 0. 
Pour k = 1, Li = f1 et À = f1. Pour k = 2, 


Ia = ( ñ sh et (fi — À)(—X) — fo(i — ma) = 0. 


1—-m: 





En général, il faut calculer le déterminant de 


fade Hfot fr-1 fe 
1m —À 0 0 
Le — Ir = . : . : . 
0 O +. 1—my 1 —À 
On obtient 
det (Le — XI) = — À det (Lr-1 — XIx-1) — 
la Hfo. rie fr-2 fr 
l—mi —À 0 0 
(1 — mx_1) x det . . . . . 
0 O0 +. 1—mzy 2 0 


=) det(Ly_1 — À ga) + (1) (1 = mg 1) = my 2) (1 mie. 


Nous avons déjà vu que det(Li — À 11) = f1 — À. La formule de récursion que 
nous venons de trouver nous donne donc 


det(Lo = 1B) —= X(f1 À) (1 mi )f2 —= x — À fi = (1 = mi )f2. 





De même, 
det(L3— ls) = AN —Afi—(1—mi)f2) +(1—m)(1—mo)fs 
= + fi + (1 mu)fe +(1-nmu)(1-mo)fs. 
En général, les valeurs propres vérifient ainsi 
ME — EL fs — A2 (1 — mi) fo — (1 — m1)(1 — m2).fs 
—(1—-m)(l- mo)... (1 mx 1)fr. (44) 


Les vecteurs propres v = (v1,...,v}) sont faciles à trouver. Ils vérifient À v — 
Lyv ce qui implique 











AU = fiv + fav +. + fr Ur 
À vo —= (1—mai)ui 
ÀU3 — (1— mo) 


À Uk —= (1 = Mk_1)Uk-1. 
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La solution de ce système vérifie : 














= 1—-m: 
Va — D V1 
1— ma (1—ma)(1 — m2) 
U3 — ES V2 — x2 V1 
1 my- 1-m)(i—-mi)..-(1—-mz- 
1 = 1e, 2 Um) ma) me, 


Les quantités qui apparaissent ici ont une interprétation naturelle, car S;+1 = 
(1—ma)---(1—m;) est simplement la probabilité de survivre jusqu’à la classe 
d’âge (i +1). 

Une population qui est soumis à (4.3) pendant un grande nombre de gé- 
nération T aura une taille proportionelle à A7 où À est la plus grande valeur 
propre. Les rapports des v; donnent les fréquences relatives dans les différentes 
classes d’âge. Ils dépendent des probabilités de survie et de la valeur de À. Si 
les classes d’âge sont de courte durée, la formule (4.4) 


1 PR DC OR die a 


k 
DAS fi 
i=1 


peut être analysée par le calcul intégral. En posant À = e”* et en approchant 
la somme par une intégrale, on à : 


Il 


1 = | e PFS(x) f(x)dx, 


où S(x) est la fonction de survie et f(x) est la fécondité. Ces deux fonctions 
vérifient : 


(i) S(x) = P(un individu aléatoirement sélectionné a une durée de vie > x); 


(ii) f(x) t.q. [ f(æ)dx = P(un individu se reproduit entre les âges a et b). 


Si tous les individus se comportent selon S et f, la population atteint une 
pyramide d’âges stable et croît exponentiellement. Soit Pop(t) la taille de la 


population au temps t. Il s'ensuit : 
dPop(t 
ep = m x Pop(t), 


mt 


ou Pop(t) x e 
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4.3  Populations finies 


Les équilibres limites que nous avons étudiés jusqu'ici sont basés sur l’hypo- 
thèse d’une population de taille infinie car notre théorie néglige complètement 
l'effet de l’aléatoire dans la sélection des gamèêtes qui s'unissent pour créer les 
individus de la prochaine génération. Si chaque génération ne comportait que 
N individus et donc 2N allèles, le résultat de Hardy et Weinberg (lemme 3.1) 
ne serait valide qu’uniquement au niveau des fréquences espérées et non pas 
des proportions actuelles des allèles et des génotypes. Dans cette section, nous 
allons découvrir que le calcul basé sur l’espérance et négligant la variation est 
trop réducteur. La figure 4.4 nous rappelle graphiquement comment, dans le 
modèle de Wright et Fisher, la nouvelle génération se constitue à partir de la 
génération parentale. 


= Population 
Population Gamètes génération t + 1 


génération t génération t créée par tirage de N 
Paa(t), Paa (£), Pia (t) PA (t), Pa (t) génotypes dans 
l’infinité de gamètes 





Figure 4.4 — Ce schéma rappelle la construction des descendants selon le modèle de 
Wright-Fisher. 


Quelles sont les propriétés statistiques de ce processus ? Pour répondre à 
cette question, il est utile d'introduire une notation supplémentaire. Indiquons 
les générations par t = 0,1,2,... et soit Nat) le nombre d’allèles À à la 
génération t. À partir de cette quantité, tout peut être déduit. Parce que N 
est constant, le nombre d’allèles a est N,(t) = 2N — NA(t), la fréquence de 
l’allèle À est pa(t) — NaA(t)/(2N), etc. La seule différence avec les formules 
que nous avons considérées auparavant est la nature aléatoire du modèle. La 
génération { = 0 correspond à l’état de départ et nous allons traiter N4(0) 
comme étant connu. N4A(t) pour t > 0 étant construit par tirage aléatoire, 
la suite (NA(t)):>0 constitue un processus stochastique en temps discret. Par 
conséquent, pA(t) aussi est aléatoire. En sachant NA(t), les propriétés de NA(t+ 
1) sont connues. Un tel processus est dit markovien. La loi conditionnelle de 
Na(t +1) en connaissant NA(t) est simplement une loi binomiale : 


Na(t + DINa(é) = Binominal(2N, pa(t)) (4.5) 


car NA(t+1) est obtenue en tirant avec remise et de manière aléatoire 2N fois 
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dans une urne constituée de 2N boules, dont NA(t) de type À. Il s’ensuit que 
E(NA(+ DINA(®) = 2Npa(t) = NA(®) 





Var (Na(Gt+1)Natt)) =  Na(E)(i — pa(t)). 
Si X et Y sont deux variables aléatoires quelconques, on a les formules 
E(X) = E(E(X|Y)) 
Var(X) = Var(E(X|Y))+E(Var(X|Y)). 
En appliquant ces expressions aux variables NA(t + 1) et N4(t), on a donc 
E(Na(G+1)) = E(Na()) (4.6) 
Var(Na(t+1)) = Var(Na(t)) + E(NA(E)(1 — pa(t))). (4.7) 


La première formule montre que l’espérance du nombre des allèles À, et donc 
également de leur fréquence, reste inchangée d’une génération à l’autre, tan- 
dis que la deuxième nous démontre que la variance autour de cette moyenne 
augmente à chaque passage par 


E(NA()(1 — pa(#))) = NE (2pa(t)(1 — pa(t))). (4.8) 


Cet accroissement est strictement positif sauf si pa(t) = 0 ou pa(t) = 1. La 
deuxième écriture fait appel à l’hétérozygotie 


H(t) = 2pA(t)(1 — pa(t)), 


qui est égale à la probabilité conditionnelle pour la création d’un individu 
hétérozygote en génération t + 1 ou bien la probabilité que lors du tirage de 
deux allèles en génération t, un des allèles est À et l’autre a. En introduisant 
NaA(t—1) dans les calculs, on peut déduire une formule récursive pour E(H(t)). 
On a 


E(H()) = E(E (2pa()(1 — pa(G))INA(E — 1))) 
et l'espérance intérieure est assez facile à calculer pour une variable binomiale. 
Si X = Binominal(n, p), il s'ensuit que 


E(X(n- X))=nE(X) - E(X?) =nE(X) — (Var(X) + E(X)°) 
= np (np(l—p)+n/p°) = (n° —n)p(i — p) = n(n—1)p(1 —p). 
Dans notre cas, en utilisant (4.5), on trouve : 


E(Na(E) (N — Na(#))INa(t — 1)) = 2N(2N — Dpa(t — 1)(1— pat — 1)). 


En divisant les deux côtés de cette expression par (2N)? et en prenant l’espé- 
rance on arrive à : 


E(H(t)) = (:- 7) E(H(t-—1))) 


= (1- es) Ho = (1- ne) 2pa(O)(1 — pa(0)). (49) 
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En substituant dans (4.7), on obtient finalement la formule 


Var(Na(t+1)) = Var(Na(t))+ (-:%) N E(H(t-1)) 





= ou (-:7) N 2pa(0)(1 — pa(O)). 


Il en découle que : 


1 


Var(NA(t +1)) = Var (N4(#)) + (: SN 


) N H(0) 





= a A) 4 HO) (4 (: 
= Go) + NH (ne) ++ (1 


1—(1—-1/(2N))ft1 
1/(2N) 








= 2Np1A(0)(1 — pA(0)) 


La variance est nulle au temps t = 0 et converge vers (2N)?p4(0)—(2N )?p4(0)?. 
Ce que cette limite signifie n’est pas évident, mais heureusement l’équation 
(4.9) que nous avons découverte lors du calcul est plus concise et possède une 
interprétation biologique évidente. La quantité p4(t)?+(1—pa(t))? correspond 
à la probabilité que deux allêles tirés au hasard dans la population en génération 
t soient égaux. Ce chiffre caractéristique est dit l’homozygotie et vaut 1— H(t). 
L’équation (4.9) montre que l’hétérozygotie d’une population de taille N qui 
est soumise aux fluctuations aléatoires du modèle de Wright-Fisher converge 
vers zéro lorsque t — © et, par conséquent, il ne reste à la limite que des 
individus homozygotes. En effet, pa(t) — 0 ou bien pa(t) — 1, c’est-à-dire soit 
lun ou l’autre des deux allèles est éliminé. 

Ce résultat explique aussi la limite pour la variance. La chance que lallèle 
À soit le seul à survivre est égale à p4(0). Lorsque { — co, la variable N4A(t) 
converge donc soit vers 2N avec probabilité p1(0), soit vers zéro avec probabilité 
1 — pA(0). La variance limite est égale à la variance de cette variable limite 
binaire. 

On aurait dû deviner ce résultat car la convergence vers les états 0 et 2N 
est simplement une conséquence du fait que NA(t) est une chaîne de Markov 
avec états {0,1,...,2N}, où 0 et 2N sont absorbants. 

Nos calculs indiquent qu’il existe une homogénéisation dans le modèle de 
Wright et Fisher. Du fait uniquement de l’échantillonnage, en absence de toute 
sélection, les allèles rares disparaissent avec une assez grande probabilité, mais 
peuvent à leur tour et avec une petite probabilité devenir dominants et déplacer 
d’autres allèles. Ce phénomène est appelé la dérive génétique (« genetic drift»). 
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Si la taille N de la population est grande, on a 1—1/(2N) & exp(—-1/(2N)) 
et obtient ainsi 


E(H(t)) + exp (-t/(2N)) H(0). 


La convergence de l’hétérozygotie vers zéro est exponentielle. 


4.3.1 Simuler le modèle de Wright-Fisher 


Il est facile d'écrire un petit logiciel pour simuler le modèle de Wright-Fisher. 
Ainsi, la figure 4.5 montre une très courte simulation d’une population de N = 2 
individus. Dans ce modèle, il n’est pas nécessaire d’accoupler les allèles pour 
créer des génotypes. Il suffit de simplement lister les 2N allèles séléctionnés 
lors de chaque génération et de montrer leur descendance. Dans ce sens, nous 
parlerons d’ancêtres et de descendants d’un allèle. Ce cas simple, illustré à la 
figure 4.5, dévoile quelques phénomènes importants. Tout d’abord, notez qu’à 
la cinquième génération il n’est pas seulement vrai que toute la population est 
homozygote (homozygotie égale à 1), il est également vrai que tous les allèles 
sont une copie de l’allêle 2 de la génération initiale. En général, la croissance 
de l’homozygotie va de pair avec un accroissement de la probabilité que deux 
allèles soient IBD. 


4.3.2 Identité par descendance (IBD) 


Dans une population de taille finie, les fréquences d’allêles neutres fluctuent 
de manière aléatoire et la population a tendance à devenir homogène. Que l’ho- 
mozygotie et le taux IBD montent en parallèle est assez naturel. Deux individus 
sélectionnés aléatoirement dans une population isolée de petite taille ont sou- 
vent un ou plusieurs ancêtres communs. Il s’avère qu’un argument très simple 
suffit pour nous donner une formule utile. Soit F(t) la probabilité que deux 
allèles tirés de la population en génération t soient identiques par descendance 
(IBD). Supposons que la population contienne à chaque génération N individus 
et 2N allèles. En utilisant le modèle de Wright-Fisher, on peut dire que : 


F(t) —  P(deux allèles aléatoirement choisis de la génération t sont IBD) 
— Plles deux allèles sont copies du même allêle en génération t — 1) 
+ Plles deux allèles sont descendants de deux allèles différents 


de la génération t — 1, mais ces deux étaient IBD). 
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Génération 0 


@) 


Génération 1 


Génération 2 


# 


(cr 
-@-®@/(: 


(») 


Génération 3 


Génération 4 


Génération 5 


Figure 4.5 — En génération zéro, les quatre allèles sont numérotés 1 jusqu’à 4. Ces 
chiffres sont utiles pour montrer les dépendances entre générations. Les couleurs dis- 
tinguent les allèles À (gris) des allèles a (blanc). Après cinq transitions, non seulement 
le seul allèle qui est représenté est l’allèle À, mais tous les allèles sont IBD, des copies 
de l’allèle 2. 


En d’autres termes : 








F(t) = x + ( x) FRS es (4.10) 
1—F(t) = (: x) 0 Ft-1) = 


1 F(t) = (- x) 0 F(0)). 





On retrouve exactement la loi qui détermine les propriétés de l’espérance de 
Phomozygotie. On peut donc dire que, sous le modèle de Wright-Fisher, la 
population entière devient génétiquement identique et cela à une vitesse expo- 
nentielle. Pour créer un modèle plus réaliste, il sera nécessaire d’introduire des 
mutations pour faire entrer plus de diversité génétique. 
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4.3.3 Le processus de coalescence 


Avant de considérer les mutations, il est utile de reconsidérer notre simula- 
tion du processus de Wright-Fisher, mais cette fois en traçant la descendance 
des allèles de la génération cinq. Cela revient à renverser le temps dans le 
processus de Wright-Fisher. Au lieu de regarder en avant, vers les générations 
futures, on regarde en arrière pour comprendre l'historique. La figure 4.6 in- 
dique le résultat. 


Génération 0 


Génération 1 


Génération 2 


Génération 3 


Génération 4 





Génération 5 


Figure 4.6 — L'arbre montre la descendance des quatres copies de l’allèle 2 de la 
cinquième génération. La racine est l’allèle 2 de la population initiale et les feuilles 
sont les quatres copies de cet allèle à la génération cinq. Trois fusions ont lieu, une en 
génération 4, une en génération 3 et la dernière en génération 0. 


La figure 4.6 montre une simulation du processus avec 8 allèles durant sept 
passages du processus de Wright et Fisher. Après le sixième passage, seule 
l’'allèle numéro 4 reste dans la course. 

Certaines propriétés statistiques des arbres généalogiques générés par le 
processus de Wright-Fisher sont simples à trouver. En sélectionnant k allèles 
dans une génération quelconque, on peut construire l’arbre de descendance en 
retraçant leur destin dans les générations précédentes. Ce processus crée des 
fusions ou des coalescences en ce sens que deux allèles qui s’unissent dans une 
génération parce qu’ils ont été descendants d’un même ancêtre, restent unis 
dans toutes les générations précédentes. En principe, l’arbre obtenu n’est pas 
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Figure 4.7 - Une simulation du processus Wright-Fisher avec 8 allèles numérotés de 1 
à 8. Les traits indiquent les allèles qui ont été choisis lors du passage d’une génération 
à la prochaine. 


forcément binaire, car il est possible que trois allèles soient descendants d’un 
seul parent, mais cette possibilité est négligable si N est suffisamment grand. 


4.4 Les arbres généalogiques produits 
par le processus de Wright-Fisher 


Deux allèles identiques dans une population finie qui évolue selon le mo- 
dèle de Wright-Fisher ont toujours un ancêtre commun, peut-être dans une 
génération lointaine. Et tout ensemble de k allèles identiques possède un arbre 
généalogique dont la racine est un fondateur, un ancêtre commun à tous. Nous 
allons maintenant effectuer les calculs pour décrire le temps aléatoire néces- 
saire pour remonter vers cet ancêtre commun. Pour commencer, prenons deux 
allèles. Nous allons compter le temps en générations et en allant vers le passé. 
Le présent est représenté par g = 0, la génération d’avant g = 1 et ainsi de 
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suite. 


© g Sous le modèle de Wright-Fisher, chaque indi- 
vidu est constitué par tirage aléatoire parmi les 
2N allèles de la génération précédente et nous 


g—1 
avons : 
g —2 P(deux allèles ont un ancêtre commun 
il y à exactement g générations) 
2 = 7 (- _É 
2N 2N É 
1 


où N est le nombre d'individus. Cette formule 
s’explique par le fait que p2 = (1 — 1/(2N)) est 
0 la probabilité que deux allèles d’une génération 
quelconque aient deux ancêtres distincts. 


Ce calcul montre que le nombre de générations G2 nécessaires jusqu’à la 
fusion de deux allèles est une variable aléatoire géométrique. Si l’on souhaite 
étudier le passé de k > 2 au lieu de k = 2 allèles, le temps G% jusqu’à la 
première fusion suit à nouveau une loi géométrique, mais le paramètre p2 doit 
être modifié. Pour 3 allèles par exemple, 


p3 —  Ptrois allèles ont trois ancêtres distincts) 
—  Ples 2 premiers tirages ont des ancêtres distincts) 
P(le troisième tirage a un ancêtre différent de 2 et de 1) 


= 1 : 1 - 
: 2N 2N } 
En général, px — P(k allèles ont k ancêtres distincts), soit 
1 2 3 k—1 
1 1 1 ce [1 —- — |. 
ES NS DCS 


L'événement que les k allèles aient k ancêtres durant g— 1 générations et qu’au 
moins deux d’entre eux s'unissent au g° passage à donc la probabilité : 








P(Gx = g)= np "(1 m»). (4.11) 


Si la taille N de la population est grande, la probabilité px est très proche 
de 1 et les temps de fusion sont longs. On peut dans ce cas remplacer le temps 
discret mesuré en générations g € {1,2,...} par une variable aléatoire continue 
Tx > 0 avec une loi Exponentielle(À4). La fonction de répartition correspon- 
dante est F(t) = 1 — exp(—AÀgt), ce qui montre que 


P(g-1< TR < 9) = Fi(g)—Fk(g—1) = exp(—Ax (g9—1))(1-exp(—Ax)). (4:12) 
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Pour avoir égalité entre (4.11) et (4.12), il faut choisir x = —In(px) = —In(1 — 
(1—px)) & 1 — px où nous avons utilisé le fait que p4 est près de 1. 
Pour de grandes valeurs de N, on peut approximativement calculer p4 : 


n = (ax) (a) (a) 


_ (a HIT ED Lo (x/Ny)) 


(: L () 12) +O(SN?), 








Il 


k 
2 


Ce résultat est intuitif car ()/CN) est une borne supérieure pour la probabilité 
qu’au moins deux parmi les X aient un ancêtre commun dans une étape de 
Wright-Fisher. Si N est grand et k/N est petit, cette borne est proche de 
1 — px, ce qui montre que le temps de fusion 7% de deux allèles parmi k suit 
sous ces conditions une loi exponentielle 


où (5) = k(k—1)/2 est le nombre de tirages possibles de deux éléments parmi k. 


Ty = Exponentielle (au = () 12) : 


L’espérance approximative de T}, est : 


À& k(k—1) 

Notez encore une fois que, dans cette analyse, nous écartons la possibilité que 
trois ou plus des allèles fusionnent au même moment. Au temps 7%, les k allèles 
deviennent donc k—1 allèles et le jeu de fusion recommence. Si l’on veut calculer 
le temps moyen jusqu’au deuxième événement de fusion, on obtient 





4N en 
E(Tx + Ty-1) = k(k — 1) (k—1)(k— 2) 
 AN(E-2+E) | 2 
— HE DR) ED: 


et le temps moyen jusqu’à l’union de tous les k allèles vaut : 


1 1 
R&D  Œ&-1/4-2 


“() 


Cette dernière égalité est une conséquence de : 


2/(k(k—2))+1/((k—2)(k—3)) = (2(k—3)+k)/(k(k—2)(k—3)) = 3/(k(k—3)) 





ÉETrdEm) — an( 
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et ainsi de suite. Notez que E(T2) — AN/2, c’est-à-dire le temps d’attente 
moyen entre l’avant-dernier et le dernier événement de fusion, est à peu près la 
moitié du temps d’attente complet. 


4.5 Combiner mutations et dérive génétique 


4.5.1 Le modèle de Wright-Fisher avec mutations 


Dans cette section, nous étudions à nouveau le modèle de Wright-Fisher 
avec deux allèles À et a, mais cette fois nous ajoutons la possibilité d’une 
mutation réversible 

PAa 
AV + 4 
PaA 
Lorsque l’on constitue la nouvelle population des 2N allèles par tirage avec 
remise dans l’ancienne population, l’allèle tiré peut se transformer avec des 
probabilités pas et paa. Le nombre NA(t) d’allèles À à la génération t est de 
nouveau une chaîne de Markov à états 0,1,...,2N, mais cette fois, les deux 
valeurs 0 et 2N ne sont pas absorbantes et la chaîne est récurrent. De plus, la 
chaîne est irréductible, car tout état peut être atteint à partir de tout autre 
état. Cela implique qu’à la longue le processus sera en équilibre, atteint lorsque 
NA(t) suit la loi stationnaire. En absence de mutations, la loi conditionnelle de 
Na(t +1) en connaissant N4A(t) était une loi binomiale avec n — 2N tirages 
et p = pA(t) = NA(t)/(2N) comme probabilité d’un succès. Dans le processus 
décrit ci-dessus, on trouve encore une fois une loi binomiale, mais la probabilité 
de succès doit être modifiée et devient : 


p(t) = pA(E)(1 — p4aa) + (1 — pA(t))Paa : 


Pour que le résultat d’un tirage soit l’allèle À, il faut soit tirer un allèle À qui 
ne se mute pas, soit tirer un a qui se mute en À. Cela montre que 


E(NA(E+1)INa(E)) = 2Np() 
2Npa(t)(1 — paa) + 2N(1 — pA(t))PaA 
= Na(t)(1 — paa) + (2N — Na(t))paA 
E(NAG+1)) = (1-—paa)E(NaA(t)) + paA(2N — E(NA(E))). 


La moyenne stationnaire y, = lims_, E(NA(t)) vérifie donc 


ul 





a A 


1 — Paalis + PaACN — us) = SN EE, 
Us = ( )u ( Us) = res 


Pour la limite de la variance, on peut argumenter comme suit : 
Var(Na(t+1)) Var(E(Na(t + 1)IN4(t))) + E(Var(Na(t + 1)INA(#))) 
= Var(2Np(t)) + E(2Np(t)(1 — p(t))) 
= Var(2Np(t)) + E(2Np(t)) — E ((2Np(t))°) /@N) 
= Var(2Np(t)) (1—1/(2N)) + E(2Np(t)) — [E(2Np(t))J/(2N), 


Il 
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où nous avons utilisé le fait que E((2Np(t))?) = Var(2Np(t)) + E(2Np(t))?. 
De la définition de p(t), nous savons que 


2Np(t) = Na(t)(1—-paa) +(2N — NA(t))paa = NA(t)(1—(P4a +PaA))+2NPaa ; 


ce qui démontre que Var(2Np(t)) = (1 — (p4a + PaA))? Var(NA(t)). 
Lorsque t — oo, E(2Np(t)) — u, et Var(Na(t)) — o?. On trouve donc 
l'équation 


8 = 03(1—1/(2N))(1 — (paa + PaA)) + Hs — HS/(2N), 


dont la solution est 


ie. Us(1 — us/(2N)) 
$  1—(1—1/(2N))(1 — (P4a + PaA))? 


Parce que les probabilités des mutations sont faibles, on peut négliger les termes 
quadratiques 


(03 





1 
1+ 2(PAa + PaA) 





(1 2 (PAa + PaA))? & l- 2(PAa + PaA) FT 


En substituant la dernière expression, la formule devient 


92 = À (-2) y PER |; 
2N 2N 1+4N(pAa + PaA) 











Le premier terme de cette somme correspond à une loi binomiale avec proba- 
bilité de succès u,/(2N) — paA/(PAa + PaA). Le deuxième terme s’additionne, 
ce qui montre que la loi stationnaire n’est pas exactement égale à cette loi 
binomiale. Elle à une variance plus élevée. 


4.5.2 Mutations neutres 


Au début du chapitre, nous avons effectué un calcul simple qui montre qu’il 
existe potentiellement presque une infinité de mutations différentes. Nombre 
d’entre elles n’ont aucune influence sur l’organisme, tandis que d’autres peuvent 
être bénéfiques dans certaines circonstances, et que d’autres encore peuvent être 
nocives. La théorie neutre de l’évolution se base sur l’idée que la majorité des 
mutations sont neutres et ne sont donc soumises à aucune force sélective. Cette 
théorie prédit qu’une grande partie de la variation génétique que l’on observe 
aujourd’hui est due à la dérive génétique. Certains allèles se sont répandus et 
d’autres ont disparu, uniquement par chance. Cette idée a été proposée par M. 
Kimura dans les années 1960. 

Le processus de coalescence que nous avons étudié dans la dernière section 
est utile dans ce contexte. Supposons qu’une nouvelle mutation neutre ait été 
créée il y a longtemps et que, entre temps, cette nouvelle allèle ait complètement 
remplacé les anciens allèles. Selon nos formules, le temps espéré pour qu’une 
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nouvelle mutation neutre se retrouve dans tous les individus d’une population 
(fixation) vaut AN. Cela est bien sûr un événement rare, car la grande majorité 
des nouvelles mutations disparaissent après quelques générations. Tout dépend 
de la taille N d’une population. Si durant une certaine période la taille N est 
petite, il est tout à fait probable qu’une nouvelle mutation puisse s’installer. 
Et si plus tard la population entre dans une période de forte croissance, alors 
une telle mutation peut s’épanouir. 

On peut faire un calcul simple dans ce contexte. Supposons qu’une nouvelle 
mutation neutre + — — soit introduite dans une population de taille N en 
génération t. Cela veut dire que la fréquence de l’allèle nouveau — vaut + = 
p-(t) (un seul allèle dans un ensemble de 2N allèles). Dans le modèle de Wright- 
Fisher, la probabilité que cet allèle disparaisse à la prochaine génération est 
alors 


(—1/2N)N & el = 0,368. 


La fluctuation induite par tirage aléatoire a comme conséquence qu’un nou- 
veaux mutant n’est présent dans la prochaine génération qu’avec une probabi- 
lité d'environ 2/3. 

Si la théorie neutre de l’évolution était correcte, on ne devrait pas être 
surpris de voir de multiples types d’allèles pour tous les gènes. On dit qu’un 
tel gène est polymorphique. 


Définition 4.1 Un gène est dit polymorphique si son allèle le plus fréquent est 
présent dans moins de 95 % de la population. 


En résumé, on peut dire que de nombreux polymorphismes qui se retrouvent 
dans des populations humaines ne sont pas liés à des effets biologiques. On 
devrait plutôt les voir comme une sorte de bruit dans l’histoire d’une espèce et 
de la durée de son existence. 


4.5.3 Nombre infini d’allèles 


Une modification du modèle de Wright-Fisher qui est particulièrement simple 
est celle du modèle à nombre infini d’allèles. Toute mutation qui arrive dans 
ce modèle est une mutation nouvelle, encore jamais vue. Étant donné le grand 
nombre de mutations possibles, pour un gène de 1 000 pb, il y plus de 41000 & 
10602 allèles différents et cela en comptant seulement les 3 substitutions par pb 
et la délétion. Un grand nombre de ces mutations sont neutres et n’ont aucun 
effet sur la fécondité et la survie. On peut inclure ces mutations dans le modèle 
de Wright-Fisher en supposant que, lorsque l’on tire un allèle de la génération 
précédente et avant de l’introduire dans la nouvelle génération, on passe l’allèle 
à travers une procédure mutationnelle. Le résultat est tel que : 


avec probabilité 4 un nouvel allêle est créé 
avec probabilité 1 — y l’allèle reste inchangé. 
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Le nombre infini d’allèles fait référence au fait que tout allèle produit par une 
mutation est toujours unique. Un allèle créé par mutation est toujours une 
nouveauté et ne duplique jamais une mutation déjà présente. Ce modèle à été 
présenté la première fois dans Kimura et al., 1964. 

Sous ce modèle, il faut redéfinir le concept de l’identité par descendance. 
Un individu IBD est porteur de deux allèles qui sont tous les deux des copies 
d’un allèle d’un ancêtre commun et qui dans leur transmission de l’ancêtre 
vers le descendant n’ont subit aucune mutation. Comme dans (4.10), soit F(t) 
la probabilité que deux gamètes tirés de la population en génération t soient 
identiques par descendance (IBD). Notre formule récursive précédente (4.10) 


devient : 
FD = (1 — u)? + (: x) (1= 2 F(E-1). (4.13) 





Le raisonnement reste exactement le même. Pour que deux allèles soient IBD, 
il y deux chemins possibles. Soit les deux ont un parent commun dans la géné- 
ration précédente et aucun des deux n’a muté, soit leurs parents sont différents, 
mais déjà IBD. Dans ce deuxième cas aussi, il faut s’assurer que les deux copies 
ne mutent pas. Sans le facteur (1— y1)?, F(t) converge vers 1 lorsque le nombre 
de générations { tend vers co. La présence du taux de mutation assure un autre 
équilibre F(t) — F®%, qui vérifie : 


1 
N 





Fe Ua + (1-5) Gare 


(ii )a-u) = 0-0 











œ _ PM NV PEN à (4.14) 
Don mg ane CERN 


L’approximation est bonne, si 4 est petit et N est grand. 

On peut considérer cette question sous l’angle de l’arbre généalogique créé 
par ce processus de Wright-Fisher avec mutations. Si l’on considère les ancêtres 
et les descendants de deux allèles, la chance qu’une mutation se manifeste dans 
une des deux lignes lors d’une transition entre générations vaut 24, tandis que la 
chance d’une fusion vaut 1/(2N). Sous ce point de vue, F® est la probabilité 
que la fusion ait lieu avant la mutation et 1 — F® est la probabilité que la 
mutation dans une des deux lignes arrive avant fusion. La figure 4.5.3 illustre 
cette limite en fonction de AN. 

On peut tirer certaines informations grossières sur le nombre d’allèles dans 
une population qui à vécu suffisamment longtemps. Si la population contient n 
allèles différents avec fréquences (p1,...,pA), alors la proportion des individus 


homozygotes (l’homozygotie) vaut p£ +: + p2. Si, de plus, tous les allèles 


étaient équiprobables (p; — 1/n), on trouverait (1)°n — 1/n pour l’homo- 


zygotie. En posant F® égale à 1/n, on obtient 1/n — F® = 1/(1+4Nu), 
c’est-à-dire n = 1 + 4Nyu. Pour cette raison, on appelle l’inverse de F®© le 
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Figure 4.8 —- Ce graphique montre la valeur limite F® en fonction de AN. Si par 
exemple u = 10° et N = 10%, on trouve 4Ny = 40 et F®° = 1/41. 


nombre équivalent d’allèles dans la population 
Néquivalent — 1+4Nu. 


Une description plus précise de l’état stationnaire du processus est pourtant 
possible. En choissisant par hasard k allèles dans les 2N allèles disponibles, on 
peut se demander combien d’allèles distincts on observera et quelle sera leur 
fréquence. En tirant dix allèles, par exemple, est-ce qu’on aura huit fois le même 
(IBD) complété par un deuxième allèle dont on aura deux copies ? Ou bien est- 
ce qu’on aura dix allèles différents, chacun étant représenté une seule fois ? La 
réponse à cette question est possible et donnée par la formule d’échantillonage 
de Ewens (voir Ewens, 1972). La formulation du résultat se base sur les chiffres 
a; pour à = 1,...,k, définis comme 


a; = nombre d’allèles qui sont représentés à fois dans l’échantillon. 


Les deux cas décrits ci-dessus avec 4 = 10 ont a; = 0 pour tout à, à l’exception 
de a2 = 1, ag = 1 ou bien ai = 10. 

La quantité importante qui détermine la réponse à notre question est le 
quotient 2u/(1/2N) = 4 Ny. Si ce rapport est grand, les mutations dominent. 
Dans le cas contraire, les fusions sont plus probables. Imaginons le déroulement 
du tirage des k allèles de manière séquentielle. Lors du premier tirage, on ob- 
serve par définition un allèle nouveau. Après ce premier tirage, on à k — 1 et 
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P(ai = 1) = 1. Si on tire un deuxième allèle, deux cas se présentent. Soit le 
deuxième allèle est identique au premier, soit il s’agit d’un nouvel allèle, dis- 
tinct du premier. La probabilité de tirer un allèle distinct et d’arriver à a1 = 2 
est ANpu/(1+4ANx), tandis que la chance de tirer un allèle IBD et d’arriver 
à (a = 1) est 1/(1+4Nwu). Lorsque l’on tire le troisième allèle, la probabi- 
lité de tirer un allèle nouveau, distinct des allèles déjà représentés, est égale à 
ANu/(2+4Nu). Dans l’autre cas et avec la probabilité 2/(2 + 4 Nu), on tire 
un des allèles déjà représentés. Quel est l’allèle que l’on dupliquera dépend de 
la situation après deux tirages. Si on est dans l’état a = 2 avec deux allèles 
distincts, chacun possède la même chance d’être doublé et on passe à l’état 
(ai = 1,a2 = 1). Si, en revanche, on se retrouve dans l’état a2 = 1 avec deux 
allèles IBD, il n’y à qu’une seule possibilité et on passe à l’état a3 = 1. En 
général, lors du K° tirage, la probabilité de tirer un allèle nouveau est égale à 
ANu/(k—1+4Ny) et la probabilité de re-tirer un allèle déjà représenté vaut 
(k—1)/(k—1+4Nxu). Chacun des k — 1 allèles représentés possède la même 
chance d’être re-tiré. Soit (a1,...,ax_1) l’état avant le K° tirage. Cela veut donc 
dire que les k — 1 allèles sont répartis comme 


1Xa+2X a+... +(k—1) x ax-1, 


où a1,@2,... est le nombre d’allèles représentés une seule fois, deux fois, etc. 
Notons (b1,...,b4) le nouvel état. Il est obtenu en doublant un des k— 1 allèles, 
choisi au hasard. La probabilité de sélectionner un allèle de classe a; est égale à 
ja;/(k— 1) et la conséquence de ce choix est que b; = a;—1et b;41 = aÿy1 +1. 
Cette explication de la formule d’Ewens est due à Hoppe, 1984. 

En analysant la récursion ci-dessus, on découvre la formule d’Ewens qui 
donne directement la répartition de a1,...,ax après k tirages 





k! : 


ANp)ANu+L-(ANu+Kk— 1) ] 


(ANp/j)" 
£ a;j! 


P(a1,...,ax) = 


(voir par exemple Durrett, 2002, section 1.3). 

Soit N4 le nombre d’allèles distincts dans un échantillon d’allèles de taille 
k. On peut calculer son espérance et sa variance en écrivant Ny = 1 +.-.+1% 
avec l; une variable indicatrice qui vaut 1, si lors du j* tirage un nouvel allèle 
est tiré et qu'il vaut O, si lors de ce tirage un allèle déjà présent est doublé. On 
trouve maintenant les formules suivantes : 





k k 
E(Nx) = D E(;)=S ANy/(Gj-1+4Ny) 
J=1 j=1 
AN ln(k) 
k k 
ANu ANu 
Var(Nx) ÿ_ Var( 5) > ET ( RE) 


j=1 j=1 
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Ces expressions sont une conséquence du fait que pour une variable indicatrice 
E(I;) = P(I; = 1) et Var(l;) = P(I; =1)(1- P(I, = 1)). Le symbole + veut 
dire que lims_ E(Nz)/(4Nu In(k)) = 1. 


4.6 Exercices 


1. Soient y le taux de mutation (A — a) d’un gène à deux allèles (A et a) 
par génération et p4 la fréquence de l’allèle À en génération t = 0,1,2,... 


(a) 
(b) 


Exprimez p, en fonction de po. 


Déterminez le temps pour que la fréquence d’allèle À réduise de 
moitié (« half-life >). Qu’en concluez-vous ? 


2. Calculez la fréquence à l’équilibre des allèles À et a, si la fitness de AA, 
Aa, et aa sont 0,3, 1,0 et 0,7, respectivement. Et si les fitnesses étaient 
0,93, 1,0, et 0,97 ? 


3. 


(a) 


Considérez un gène avec deux allèles À, a. Soit p(t) la proportion 
de l’allèle À et q(t) = 1 — p(t) celle de a au temps t. Le modèle de 
sélection au temps continu peut s’écrire 





dp 

Fin palp(mi — mio) + q(mi2 — Mm22)], (4.15) 
où les facteurs malthusiens de la fitness sont paramétrisés par m11 — 
O0, m2 = —hs, m22 = —s. Dans cette dernière expression, s dénote 


le coefficient de sélection et À le degré de dominance. 
On regarde les trois cas spéciaux 


i. À est favorisé et dominant : s>0, h — 0; 


ii. À est favorisé et l'effet de fitness est additif, c’est-à-dire que la 
fitness de l’hétérozygote est au milieu entre la fitness des deux 
homozygotes : s > 0, h— 1/2; 


iii. À est favorisé et récessif : s> 0, h=—1. 


Pour chacun des cas ci-dessus, déduisez la forme particulière que 
prendra 4.15. 


Sans résoudre le système obtenu en (a), esquissez l’évolution de p(t) 
pour les trois cas si la fréquence initiale de l’allèle À est petite, par 
exemple po = p(0) = 0,05. 


En utilisant les résultats de la partie (a), montrez que l’on a 


da p(t) 1 Po 1 
In (2) or In (e) dd. 





pour (ii) 
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et pour (iii) 





RACE 


4. Soient w++ la fitness de génotype AA, w,-_ la fitness de génotype Aa 
et w__ la fitness de génotype aa. Soit p; la fréquence de l’allèle À en 
génération t et qe = 1 — p4 celle de a. Considérez les deux cas 
(i) W++ = 0,9, WE = 1 et w__ — 0,8; 

(ii) UE = 1, Wie = 0,8 et W__ — 0,9. 
Pour les deux cas ci-dessus, 


(a) Calculez P,. . 
(b) Esquissez l’évolution de p4 où po = 0,1, po — 0,3, po — 0,4 et 
po = 0,7. Qu’en concluez-vous ? 


5. On à vu le modèle de sélection pour l’allèle À contre l’allèle a avec la 
génération discrète, dans lequel le changement des proportions entre deux 
générations est décrit par A(p4). Les points d’équilibre sont les solutions 
de l'équation A(p4) = 0. Si un tel point existe on le dénotera par DA. 

(a) En utilisant un développement de Taylor de A(p4), montrez qu’un 
équilibre est stable si 


dA(pA) 2 


dpA PA 
Stabilité veut dire que pour pA près de pA la proportion pA4 dans les 
prochaines générations converge vers DA. 
(b) Soit Da = (w22—uw12)/w , où w = w11—2w12+W22 . On peut montrer 
que 


dA(pA) _ PAPaw : 


dpA w w w 





(Pa — pA)(pA — Pa)w  2pAPa(pA — DA)?w 
_ —2 


Supposons que l’hétérozygote soit favorisé par rapport aux deux 
homozygotes, c’est-à-dire wi2 > w11 et wi2 > w92. Déterminez les 
points d’équilibre et discutez leurs stabilités. 


6. Le taux de mutation vers l’allèle dominant qui cause neurofibromatosis 
est d'environ 9 x 10 et la fitness des individus touchés par cette maladie 
est à peu près 0,5. Quelle est la fréquence espérée de nouveau-nés qui sont 
à risque. 

7. La taille adulte possède une héritabilité de 0,90. Que veut dire ce chiffre ? 
Comment peut-on l’estimer ? 

8. Quelle est le nombre de générations nécessaire pour que la fraction espérée 


d’hétérozygotes tombe à 5 % de la valeur initiale dans une population de 
100 individus ? 
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9. (a) Si une population est stratifiée en deux classes d’âge (J : jeunes et 
À : âgés) et se développe d’une génération à l’autre selon les règles 
suivantes : 


i. Tous les sujets de J passent à A ; 


ii. Tous les sujets (indépendants de la classe) ont un descendant 
qui fera partie de la prochaine classe J'; 


ii. Tous les sujets de À meurent. 

Calculez la taille de la population en commençant un seul sujet 
IA 

en J. Montrez que la proportion limite Bi vaut TEE 

Soient S(x) — P(la durée de la vie > x) la fonction de survie, f(x) 


la fécondité, c’est-à-dire 


E 


L f(x P(un individu se reproduise entre les âges a et b), 


et Pop(t) la taille de la population au temps t. Montrez que 
Pop(t) = Pop(0)e”*, 


où m vérifie 


Je MES (x) f(æ)dr = 1. 
0 


10. Dans cet exercice nous analysons le modèle de Wright et Fisher à 2N 
allèles qui sont ou bien À ou bien a. Soient MNA(t) le nombre d’allèles À 
à la génération t et pa(t) = NA(t)/(2N) la fréquence de l’allèle A. 


(a) Calculez l'espérance et la variance de N4A(t + 1) en fonction de 
E(NaA(t)) et de Var(Na(t)). Qu'en concluez-vous ? 


(b) Démontrez que 


1 (Na pa) = (1-2) Eat du -at-0)): 





Me t+1 
ii. Var( alt +1)) = 2Np4(0)(1 — pa(0) =. 


11. Lors du tirage aléatoire de k allèles d’une population de 2N allèles, la 
probabilité que le j° allèle est une nouveauté vaut 


ANu 
j—-1+A4Nu 
Soit Nx = le nombre d’allèles différents parmi k allèles. Calculez l’espé- 


rance et la variance de N4. Comparez avec la formule approximative du 
cours Nxy = 1+ANxu. 


Chapitre 5 
La génétique quantitative 


La taille adulte d’une femme ou d’un homme est un caractère sous l’in- 
fluence aussi bien génétique qu’environnementale. Il existe beaucoup d’autres 
exemples de tels caractères à variation continue et dont on aimerait comprendre 
la base génétique. Ils ne se transmettent pas par ségrégation mendelienne et 
la loi de Hardy-Weinberg car ils sont influencés par une multitude de gènes. 
Les caractères de ce genre sont dits polygéniques. Dans ce chapitre, nous al- 
lons étudier quelques méthodes statistiques utiles pour l’analyse de ce type de 
caractères. 

L'idée qui va nous intéresser est le degré de dépendance entre les caractères 
des parents et ceux de leurs descendants. Est-ce qu’un parent de grande taille 
aura des descendants de grande taille ? Est-ce que le fait qu’un père soit mort 
d’une crise cardiaque à l’âge de 58 ans indique que ses descendants ont un risque 
élevé de développer une maladie cardiovasculaire. Détecter une dépendance de 
caractères entre parent et descendant ne veut pas forcément dire qu’il existe 
une base génétique pour le caracère. Il est, par exemple, également possible 
que des effets dus à l’environnement que l’on partage dans la famille soient 
responsables de la corrélation. 

La grandeur mathématique liée à la dépendance entre parent et descendant 
est l’héritabilité. Si l’on parle de maladies, une notion liée à l’héritabilité est celle 
du risque familial. Dans beaucoup de cancers, par exemple, le risque familial est 
une réalité. L’incidence du cancer augmente par rapport à l'incidence dans la 
population générale lorsque l’on considère la population des descendants dont 
on sait par exemple que la mère à été touchée par le cancer. 

Associer un chiffre tel que l’héritabilité à certains caractères est un sujet 
controversé, en particulier pour des caractères liés au comportement social, à 
l'intelligence, ou à la santé mentale. Ce type de caractère est très difficile à 
définir de manière précise et donc forcément très difficile à mesurer. C’est l’une 
des raisons principales du scepticisme à l’égard de l’héritabilité. 

Dans d’autres domaines, en revanche, tels que l’élevage des animaux, ce 
concept est tout à fait accepté. Nous allons pourtant découvrir que, même 
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dans ces cas, la définition mathématique et rigoureuse de l’héritabilité n’est 
pas simple. 


5.1 Élevage 


Chez les plantes et les animaux, il est possible de sélectionner, en vue de 
la reproduction, des individus avec des caractères particuliers. On peut ainsi 
renforcer des caractères de valeur commerciale chez les descendants. La pro- 
duction de lait chez les vaches, par exemple, à pu être augmentée d’environ 700 
kilos par cycle de lactation à environ 6 500 kilos aujourd’hui. 

Un premier pas dans le développement d’une théorie de l’héritabilité est de 
considérer un seul gène à deux allêles. Imaginons la situation décrite à la figure 
5.1. L’allèle a est défavorable tandis que l’allèle À est favorable du point de vue 
d’un certain caractère X. 


H ThHs H 


valeur du caractère valeur du caractère 


Figure 5.1 — En sélectionnant pour la prochaine génération uniquement des parents à 
valeur de caractère élevée (> T'), on espère obtenir des descendants à valeurs encore 
plus élevées. 


Définition 5.1 Lorsqu'on sélectionne les parents uniquement parmi les indivi- 
dus avec une valeur x élevée de caractère X, disons x > T', la valeur moyenne 
parmi ces parents vaut u. et dépasse la valeur moyenne 11 de la population gé- 
nérale (us > u). Leurs descendants ont une moyenne u' qui se situe entre ui et 
Us, H < Ua < Hs. Le quotient 


DRE (5.1) 
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Figure 5.2 — Les densités en gris montrent les lois conditionnelles du caractère pour le 
génotype AA, Aa et aa. La densité en noir représente la répartition du caractère dans 
la population. Notons que l’allèle À produit une valeur plus grande que l’allèle a. La 
moyenne du caractère est u et S désigne la proportion de la population sélectionnée 
pour l'élevage. 


est appelé l’héritabilité (fig. 5.2). 


L’héritabilité mesure l'effet des gènes au cours d’une expérience dans la- 
quelle l’influence de l’environnement est de la même nature pour tous les in- 
dividus. Elle est grande si, en sélectionnant les parents, on peut influencer de 
manière importante la moyenne du caractère X des descendants. 

Il est usuel de paramétriser l’espérance du caractère pour les trois génotypes 
comme suit : 


Haa = U —MmM 
AA = +m 
HAa = H* + d, 





où * est une constante commune, + m est l'influence de l’homozygosité et d 
celle de l’hétérozygosité. On pourrait donc dire que l’effet G du génotype vaut 


*+m, si AA 
G=4 *+d, si Aa 


L* —m, Si aa. 





La variation supplémentaire du caractère X, visible figure 5.1, est due à l’en- 
vironnement. 

En choisissant m > 0, on suppose implicitement que l’allèle a est inférieur à 
l’allèle A. La valeur y* vaut (Wa + tAa)/2 et se trouve exactement à mi-chemin 
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valeur x du caractère 


Figure 5.3 — Si les densités f4a et faa Sont simplement descellées l’une de l’autre, 
l’aire wAA — wAa peut être calculée approximativement. 


entre les deux homozygotes. Si d = 0, les allèles agissent de manière additive 
dans le sens que À à un effet de m/2 et que a a un effet de —m/2. Si d = m, 
lallèle À est dominant, si d — —m, l’allèle À est récessif. 

Si l’on sélectionne les individus de la partie hachurée S, on favorise le géno- 
type AA et, dans une moindre mesure, également Aa sur aa. En redéfinissant 
la fitness comme probabilité de sélection, notre ancienne formule (4.3) est ap- 
plicable et nous donne : 


APA = PA Pa(PA(WAA — WAa) + Pa(WAa — Waa))/&. 


Ici, Apa est l’augmentation de la fraction de l’allèle À parmi les descendants. 

Sous l'hypothèse que faa(x), faA(x) et faa(x) sont des densités identiques 
à l’exception d’une translation et si les effets des génotypes (m, d) sont petits, 
on obtient 


WAA —WAa —= i faatode = [” JAa(x)dx 
& L dx — L x)dx 
Î FaA(x) [fat ) 


F 


T+m—d 
- f en 


De manière analogue, on trouve que 


VWAa — Waa = faA(T)(m + d), 
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et ainsi 


I 


PA Pa(pA fAA(T)(m — d) + pa fAA(T)(m + d))/& 
PA Pa FAA(T)(m + (pa — pA)d)/S. 


ApA 


I 


La fitness moyenne w est simplement égale à la probabilité qu’un individu aléa- 
toirement tiré de la population soit sélectionné pour l'élevage et donc &w = S. 

Les descendants des parents sélectionnés ont une valeur moyenne du carac- 
tère égale à : 


Ha = (pa+Apa) aa + 2(pa + ApA)(Pa — APA)HAa + (Da — APA) Haa 
PAG + m) + 2p4a Apa(u* + m) + 2pA Pa(U* + d) 
+2ApA(Pa — pA)(m* + d) + pau — m) — 2pa ApA(* — m) + o(Apà) 
&  +2ApA(m + (Pa — pa)d). 


Ainsi 
d'— pr 2Apa(m + (pa — pa)d) = 2(m + (pa — pA)d)*pA Pa FAA(T)/S . 


On peut mettre en relation cette équation avec l’héritabilité (5.1) car, si l’on 


suppose que f(x) est une densité normale avec variance a?, on a le résultat 


suivant : 
(fra) = [ler 
=5 


Le, ee” 





1 
— (is —H) = 3 FAA(T)0?. 
Finalement, on a 


2 H=H _ 2pAPa(m+ (pa — pa)d) _ 2pA pad” (5.2) 
Be —p FE Œir | 





Nous allons découvrir plus tard que la quantité a qui apparaît ici, 
Q=Mm+ (Pa — PA), 


est liée à l’effet partiel exercé par un seul allèle du génotype. 
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La formule que nous avons trouvée montre que l’héritabilité dépend de la 
proportion pA de l’allèle favorable À, des effets m et d des génotypes, aïnsi que 
de la variabilité globale o? du caractère X. 

Comment interpréter (5.2) ? Prenons d’abord le cas d = 0 : 


h? = 2PA Pa mepa 


Il s’agit tout simplement du rapport de deux variances, celle de l’effet génétique 
et celle du caractère 
h? = Var(G)/Var(X). (5.3) 


Pour vérifier cela, notons qu’en utilisant les probabilités de Hardy-Weinberg, 
on trouve pour la variance de G 





Var(G) = E((G-u"*))-(E(G - w*)) 
= (mpà + mp) — (mpà - mp?) 
= m°(pà +p$) - m°(p4 — 5) 
= m0 (pà + p£) — m°([pa — pa][PA + Pal)” 
2PA Pam”, 








Car PA + Pa = 1. Lorsque d = 0, l’héritabilité varie donc entre 
h? = 0 si Var(G) = 0 et h? = 1 si Var(G) = Var(X). 


Si l’on décompose le caractère X de manière additive en une partie génétique 
et en un reste, on obtient : 


REG O)eCrE 


Une analyse mathématique de cette décomposition est facile à condition que E 
et G soient non-corrélés, c’est-à-dire 


Cov(X,G) = Var(G). 


Il en découle deux représentations intéressantes. D’une part, 


h? = Cov’(X,G)/(Var(G) Var(X)) = Corr?(X,G) (5.4) 
et d'autre part 
2 Cov(X,G) 
— Var(X) (9 


La formule (5.4) montre que si les effets des allèles étaient additifs, c’est-à- 
dire si d = 0, l’héritabilité À ne serait rien d’autre que la corrélation entre le 
caractère X et la composante génétique G. L'expression (5.5), le quotient entre 
une covariance et une variance, nous est familière en régression linéaire. 
Soient À et B deux variables aléatoires avec espérances et variances E(A) = 
LA, E(B) = up, Var(A) = 04, Var(B) = 07%. Nous souhaitons prédire B par 
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une fonction linéaire de À, B=a + BA. La qualité de la prévision peut être 
mesurée par l'erreur carré moyen E[(B — B)?]. Cette quantité vaut 


E LB - By] = Ef(a+8A-B)] 


= Ef(a+(8ua—up) +B{A-—ua}-{B-u8})] 
= (a+(8ua — up)) +8 04 +0% —-28Cov(A,B). 





En annulant les dérivées partielles par rapport à a et 5 on trouve que l’erreur 
carré moyen est minimale lorsque à = up — Bua et B = Cov(A,B)/Var(A). 
Le carré de l’héritabilité peut donc être interprété comme le coefficient de ré- 
gression lorsque l’on souhaite prédire l’effet génétique G à l’aide du caractère 
X. 

Pourtant, les formules (5.2) et (5.3) ne sont pas en égalité lorsque d Æ 0. 
Dans ce cas, on trouve que 


Var(G) — 2pAPa (m° + d2(1 — 2p4 Pa) — 2m d(pA — Pa)) 
—  2PA Pa [o? + 2PA Pa d] 
et donc un peu plus que le numérateur de (5.2). 
En pratique, le caractère est polygénique, c’est-à-dire sous l’influence d’une 


multitude de gènes, chacun avec ses propres effets m;, d;. Si l’on suppose que 
les gènes agissent de manière additive, on obtient une généralisation de (5.2) : 


k 
h? = V p(1 — p;)o /0?. (5.6) 
i=1 


5.2 Décompositions additives 


La formule (5.3) suggère une autre approche du problème des caractères 
basée sur les modèles à effets aléatoires : 


X — valeur du caractère d’un individu (5.7) 
— valeur phénotypique (mesurable) 
= G+E 


— effet dû au génotype + effet dû à l’environnement. 


Dans cette décomposition, X, G et E sont des variables aléatoires, telles que 


E : une variable aléatoire centrée (espérance — 0), avec 


variance 0%. 


G : une variable aléatoire avec espérance LG = 1x 
et variance 0%. 
. 7 2 _ 2 2 
G,E: non corrélés et donc 0% = 0% + 0%. 
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La décomposition de X en somme de G et de E dans 5.7 est semblable aux 
calculs que nous avons effectués à la section 5.1. Mais, cette fois, au lieu de dire 
que l'effet aléatoire dû à l’environnement est de la même nature pour tous les 
individus, nous l’introduisons explicitement sous la forme d’une variable aléa- 
toire. L'hypothèse de la corrélation négligeable entre G et E n’est pas toujours 
justifiée mais elle est nécessaire pour simplifier les calculs. 

En génétique, on s'intéresse à la transmission du matériel génétique d’une 
génération à l’autre. Parce que le génotype d’un individu est créé par l’union 
de gamètes provenant des deux parents, il est souhaitable de pouvoir isoler 
l'influence de l’un des parents. Dans la situation dont nous avons discuté à la 
section précédente concernant un gène à deux allèles, supposons que l’individu 
reçoive du père l’allèle À : quel est alors son caractère ? Pour répondre à cette 
question, le tableau 5.4 est utile. Dans les calculs, nous avons à nouveau fait 
appel à la paramétrisation suivante : 


u*+m, si AA 
G=4 y*+d, si Aa 


L* —m, Si aa. 





De plus, on suppose que l’allèle transmis par un des parents est connu et que 
Pautre allèle est choisi aléatoirement. 


Table 5.1 - En sachant que la contribution d’un des deux parents est l’allèle À (ou 
a), que vaut le caractère de l’enfant ? Ce tableau montre ce qui arrive si la moité du 
génotype est connue et si l’autre moitié est choisie aléatoirement. 








probabilité 
allèle | des génotypes E(G | allèle) E(G | allèle) — E(G) 
AA Aa aa 
A | PA Pa 0 | H*+mpA + dpa MPA + da 
—(m(pA — Pa) + 2dpA Pa) 
= Pa(Mm + d(Pa — PA)) = PaQ 
a O0 PA Pa | H° + dpA— Mpa | —pA(M + d(pa — pA)) = -paa 























Les quantités de la dernière colonne du tableau 5.4 sont dites les valeurs 
associées aux allèles. À l’aide de a, un éleveur pourrait prédire le caractère d’un 
individu issu d’une union de deux gamètes particuliers, simplement en sommant 
les valeurs associées aux allèles correspondantes. C’est ce qu’on appelle la valeur 
pour l'élevage et qui vaut : 


2PaQ, si les deux gamèêtes sont À et À 
B=—% (pa—pa)a, siles deux gamètes sont À et a 
—2pAQ, si les deux gamètes sont a et a. 
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La variable B donne la valeur du caractère que l’on obtient en considérant une 
décomposition additive du génotype en deux parts paternelles. Le nom B pour 
cette variable est inspiré par le nom anglais pour l'élevage, le « breeding ». Si les 
effets des allèles étaient additifs, on aurait égalité entre l’effet génétique centré 
G—E(G) et B. En général, il y a pourtant un effet supplémentaire synergétique 
entre les deux allêles, 1 = G — E(G) — B. On parle également d’effet interactif. 
Cette interaction est calculée au tableau 5.5. 


Table 5.2 — La contribution génétique ou caractère, G, peut être écrite sous forme de 
somme G = E(G) + B +1, où I dépend uniquement de la valeur de d et s’annule 
lorsque d = 0. Notez que E(G) = u* + m(pA — Pa) + 24PA Pa. 
































génotype G E(G) B I 
AA u*+m | E(G) 2PaQ M — M(PA — Pa) 
—24pA Pa — 2paa 
= —2pÎd 
Aa u* +d | E(G) | (pa — pa)a d — M(PA — Pa) — 24PA Pa 
— (Pa — pA)a 
= 2pA Pa d 
aa u*—m | E(G) —2pAQ —M — M(PA — Pa) 
—24dpA Pa + 2pAQ 
= —-2pid 
a =m+d(Pa — PA) & M=AQ+A(PA — Pa) 











Par construction, 1 et B ont une espérance nulle et ne sont pas corrélés. 
Par exemple, 


E(B) — El[E(G|allèle) - E(G)] = E(G) —- E(G) =0 
= pA 2PaQ + 2Pa PA(Pa — PA)A — pé 2paa = 0. 
En revanche, la variance n’est pas nulle. Pour B, on obtient : 
Var(B) = 03 = pA(2paa)” + 2pA Pa(pa — PA) Q° + pa(2pAQ) = 2pA pa. 


Ce calcul met en lumière la différence entre (5.2) et (5.3), car on constate 
maintenant que (5.2) est égal à 


h? = Var(B)/Var(X). 


Cela montre qu’en général À est égale à la corrélation entre le caractère X et 
l'effet additif B du génotype. Pour le démontrer, notez que X = E(G)+B+I+E 
implique Cov(X, B) — Var(B), au moins si B et E ne sont pas corrélés. On 
peut donc maintenant généraliser les équations (5.4) et (5.5) 

2  Var(B Cov(X, B)? 


DO Gb Va re VRP (5.8) 
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et 
R? = Var(B)/Var(X) = Cov(X, B)/Var(X). (5.9) 


5.3 Estimation de l’héritabilité 


Pour estimer h? on peut se baser sur des expériences de croisements discu- 
tées à la section 5.1. Dans des populations humaines, cette approche n’est pas 
possible, mais on peut la remplacer par le calcul de corrélations entre les ca- 
ractères de deux individus qui sont descendants, ascendants ou collatéraux de 
degré un ou deux, tels que (parent, enfant), (enfant I, enfant IT), (vrai jumeau 
I, vrai jumeau IT), etc. Une bonne introduction à ce sujet avec de nombreux 
exemples est donnée par Falconer, 1989. 


5.3.1 Estimation à l’aide de couples parent/descendant 


Pour illustrer les calculs nécessaires, considérons le cas d’un couple parent/des- 
cendant. Selon le modèle de base (5.7), on a : 


Xa = Ga+Ea et Xp = Gp + Ep; 


où l’indice d indique le descendant direct et l’indice p le parent. Sous l'hypothèse 
que Get E sont non corrélés (Ga avec Eg et avec E, et G, avec E, et Ea) et 
que Cov(Ea, E,) est nulle, on trouve : 


Cov(Xa, X}) = Cov(Ga + Ea, Gp + Ep) = Cov(Ga, G3). 


L'hypothèse Cov(Æ4, E,) = 0 n’est pas entièrement satisfaisante car l’environ- 
nement du parent est souvent partagé par le descendant. Si on ne peut pas 
négliger cette corrélation, on à 


Cov(Xa, X}) > Cov(Ga, Gp). 


Le calcul de la covariance Cov(Ga, G,) est beaucoup simplifié par la dé- 
composition additive. La raison profonde de la covariance entre parent et des- 
cendant est bien sûr la transmission d’un allèle du parent vers le descendant. 
En utilisant la décomposition 


G=E(G)+B+I 
et en supposant connu l’effet génétique du parent, on trouve que 


Cov(Ga, Gp) = E(EIGa- E(Ga)][Gr — E(G»)]) 
= E(E[Ga- E(Ga) | Go][Gp — E(Gp)]) 
E(E (Ba + La | Gp) (Bp + 1p))- 
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L’espérance conditionnelle de l'interaction 1 en connaissant le génotype du 
parent est nulle, car 14 ne peut être connue qu’en connaissant le génotype entier 
du descendant. Pour E(Bà|G,) on peut en dire plus. Le descendant recevra un 
des allèles du parent. L'effet additif des deux allèles du parent vaut B,. En 
choissisant un des deux allèles par hasard, la moitié de B, sera en moyenne 
transmise au descendant. Cela montre que E(BalG,) = B,/2 et 


Cov(Ga, Gp) = E(1/2B,(B» + lp)) 
— 1/2 Var(B,), 
Si l’on effectue la régression de X43 sur X,, on trouve la droite 


Ra = E(Xs) + (Xp — E(X>)) Re” | 


La pente de cette droite vaut : 


Cov(Ga, Gp) _ Var(B,)/2 1 


= h? 
Var(X,) Var(X,) 2 





Ajuster une droite de régression à un échantillon de couples (x;,y;) avec à — 
1,...,n nous permet donc d’estimer h?. Ici, x; est la valeur du caractère du 
parent et y; celle du descendant. 


5.3.2 Le cas général 


En général, la covariance génétique entre deux individus dépend de leur 
généalogie. Deux descendants qui ont les mêmes parents (K full sibs >), par 
exemple, ont en moyenne un quart du matériel génétique en commun. Ces 
coefficients de 1/2 (couple parent/descendant), 1/4 (couple frère et sœur), etc. 
sont les coefficients de parenté, dont la définition exacte est la suivante : 


Définition 5.2 Le coefficient de parenté de deux individus u et v est égal à : 
Du — P(deur allèles tirés aléatoirement, un de u et l’autre de v sont IBD), 
Ce concept s’applique également à un seul individu car 
Puu = (1+ Fu)/2, 


où F, est le coefficient de consanguinité de l'individu « (voir section 3.4). Si 
Fy = 0, alors Quu — 1/2, car avec une chance de 1/2, on sélectionne deux fois 
la même copie du gène en deux tirages avec remise. Avec une chance de 1/2, 
on tire les deux copies du gène, mais ces deux copies sont IBD avec probabilité 
En. 

Le calcul de la covariance Cov(Gu, Ga2) de l'effet génétique entre deux 
descendants des mêmes parents peut nous servir d'exemple pour surmonter 
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Figure 5.4 — À l’aide de couples (parent/descendant), on peut estimer l'héritabilité 
d’un caractère sous l’hypothèse que les effets environnementaux agissent indépendam- 
ment des effets génétiques et indépendamment du parent et du descendant. 


les difficultés. Notons par Gn1 et Gp2 les effets génétiques des deux parents 
communs. On aimerait calculer la covariance conditionnelle : 


Cov(Gai, GalGm: Gp) =  E([Ba + ln][Bao + lw]|Gh1, Gp2) 
Cov(Ba, Ba2|Gp1, Gp2) + Cov(lar, la2|Gp1, Gp2). 


En ce qui concerne le premier terme, on a Cov(Bu, BalGhi) = Var(B)/4 et 
Cov(Bu, BalGn: Gy2) =2Xx Var(B)/4. 

Pour le deuxième terme, Cov(la, la2|Gh1) = 0, mais Cov(lun, La2|Gp1, Gp2) = 
Var(1)/4 £ 0. 

En général, la covariance entre effets génétiques de deux individus I et J, 
vaut : 


Cov(G, Gy) = 2 Pur Var(B) + (Dur w! Durrvt + Pu’v' Qu''v!) Var(]). 


Dans cette formule, (u/,u/’) sont les parents de u et (v’,v”) sont les parents 
de v. 
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5.4 Exercices 


1. Soit G l'effet génétique. Démontrez que 
Var(G) = 2p,pA[a? + d’(2pap4)] 


2. L'effet génétique d’un gène sur un caractère quantitatif est de 5 pour le 
génotype AA, également 5 pour le génotype Aa et, —1 pour le génotype 
aa. Il est connu qu’un des parents passe au descendant un allèle À. Com- 
ment quantifier cette information ? Quelle est donc la valeur d’un parent 
AA? 

3. Considérez un caractère quantitatif X qui est déterminé par deux gènes 
ayant chacun deux allèles, AÀ,a et B,b. Supposons que les deux gènes 
se situent sur deux chromosomes différents et que pa = pp = 1/2. On 
considère les deux cas suivants : 


(a) Le trait est additif pour les deux gènes tel que À et B contribuent 
chacun d’un point à un certain score, tandis que a et b ne contribuent 
en rien. Le génotype aabb aura un score 0 et le génotype AABb un 
score 3, par exemple; 

(b) Le trait est codominant pour les allèles À et B tel que les génotypes 
AA, BB, Abet aB contribuent chacun d’un point à un certain 
score. Le génotype AABb aura un score de 2, par exemple. 


Un éleveur estime que les petits scores sont avantageux. Donc, suite à un 
croisement, il sélectionne la progéniture de score 0 ou 1. 

(a) Montrez que, dans le trait additif, la moyenne de la population peut 
se calculer comme u = 4pA et que la moyenne des descendants après 
sélection vaut également w’ = 4p/,. Déterminez le facteur d’hérita- 
bilité h? = (y — u)/(us — h). 

(b) Montrez que la moyenne de la population et la moyenne descen- 
dante dans le cas codominant vaut 2p(1 + q). Déterminez le facteur 
d'héritabilité A2. 

(c) Calculez en forme générale la moyenne globale 4 pour le trait additif 
ainsi que codominant. 

4. On considère un trait quantitatif X qui se compose d’un effet génétique 
G et d’un effet environmental E tel que 


X=G+E. 


Soient B et I deux variables aléatoires représentant l'effet additif et l’effet 
interactif. La contribution génétique G s’écrit sous la forme d’une somme 


G=E(G)+B+I. 


(a) Calculez l'espérance et la variance de I. 
(b) Démontrez que Cov(X, B) = Var(B). 


Chapitre 6 


Génétique moléculaire 


6.1 ADN, protéines et méthodes expérimentales 


Le matériel génétique dans les cellules se trouve dans les chromosomes. 
Si l’on y regarde de plus près, les chromosomes sont constitués de molécules 
d'ADN. Une molécule d'ADN consiste en deux brins enroulés autour d’eux- 
mêmes sous forme de spirale ou double hélice (fig. 6.1). Chaque brin est un 
enchaînement de nucléotides de quatre types : À, T, G, C (adénine, thymine, 
guanine, cytosine). Un tour de l’hélice est composé d’environ 10 nucléotides. Les 
deux brins sont des copies complémentaires l’un de l’autre. La complémentarité 
veut dire que À va toujours avec T et vice versa. De même, G va avec C. Les 
deux brins sont attachés par des liaisons hydrogènes qui se forment entre À et 
T', et entre Get C!. 

Chacun des quatres couples possibles À — T, G—C,T — À, ou C — Gest 
appelé paire de bases (pb). Les molécules ADN peuvent être très longues, chez 
les humains & 230 - 105 pb dans le plus long chromosome. En total, le génome 
humain contient 3,2 x 10° pb. Parce que nous possédons deux copies de chaque 
chromosome (à l’exception du chromosome X ou Ÿ) et que chaque chromosome 
est constitué de deux brins, nos cellules contiennent quatre brins pour chaque 
gène. 

Tout gène est transcrit en un ou plusieurs produits ARN (acide ribonu- 
cléique). Les ARN sont composés de quatre bases possibles tout comme l'ADN. 
Les bases sont À, Cet G, ainsi que U (uril) qui prend la place de T. Pour la 
grande majorité des gènes, l'ARN transcrit est lui-même un produit intermé- 
diaire qui est ensuite traduit en protéine (chaîne d’acides aminés). Le génome 
humain contient entre 20000 et 25000 gènes de ce type. Les protéines rem- 
plissent des fonctions diverses et sont l’outil de base du monde vivant. En géné- 
ral, la structure géométrique tridimensionnelle de la protéine est d’importance. 
Parmi les protéines connues, on compte de nombreuses enzymes (catalyseurs) : 
Phémoglobine qui transporte l’oxgène, l'insuline qui sert à la communication, et 
les immunoglobulines qui peuvent reconnaître des molécules étrangères. Pour 
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Figure 6.1 - Structure schématique de l'ADN. La molécule d'ADN est composée 
de deux brins complémentaires enroulés autour d'eux-mêmes. Les paires de bases 
sont donc arrangées le long d’une double hélice avec des connexions entre paires 
complémentaires. 


une minorité de gènes, l'ARN transcrit est le produit final et a une fonction, 
par exemple, dans la synthèse de protéines. 


L'expression des gènes, c’est-à-dire leur transcription en ARN et leur tra- 
duction en protéine, se fait selon le schéma suivant. 
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ADN correspondant à un gêne 


7 


intron intron intron 
exon I exon IT exon IIT 


| transcription 


D} "{") C7 


| élimination des introns 


| 
mARN 


| traduction 


protéine 


L’ADN complet est transcrit en ARN. Ensuite, les introns, c’est-à-dire les 
parties de PADN qui ne sont pas utilisées ultérieurement, sont éliminés. On dit 
que les introns sont non codants. Les autres parties du gène, les exons, sont 
joints et forment l'ARN messager (ARNm) qui contient la partie codante de 
l'ADN (dite ADNC). Environ 3 % seulement du génome humain est codant. La 
dernière étape concerne la traduction de lARNm en une protéine. Le diction- 
naire utilisé consiste en un code non chevauchant basé sur des triplets de bases 
ARN. Ces triplet sont appelés codons. Le tableau 6.1 indique quel est ce code. 
Le code est redondant dans le sens que quatre codons différents codent souvent 
pour un seul acide aminé. Ainsi, le codon AC*, où x peut être n’importe quelle 
base, est traduit en Thr. Du fait de cette redondance, de nombreuses muta- 
tions de paires de base sont silencieuses car elles n’ont aucune conséquence sur 
la protéine résultante. 


En résumé, on peut dire que tout gène chez l'humain est composé d’exons et 
d’introns. Beaucoup de gènes commencent par une région promoteur. Il s’agit 
d’une courte séquence de bases qui contrôle la transcription en produit ARN. Si 
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Table 6.1 - Les codons sont composés de 3 bases de l'ARNm. Chaque codon repré- 
sente un acide aminé dans une protéine ou arrête la synthèse (STOP). Les noms des 
vingt acides aminés sont : phénylalanine (phe), leucine (Leu), isoleucine (ne), méthio- 
nine (Met), valine (Val), sérine (Ser), proline (pro), thréonine (Thr), alanine (Ala), 
tyrosine (Tyr), histidine (His), glutamine (GIn), asparagine (Asn), lysine (Lys), acide 
aspartique (Asp), acide glutamique (Glu), cystéine (Cys), tryptophan (Trp), argi- 
nine (Arg), et glycine (Gly). Les codons STOP terminent la transcription d’un gène. 
Il existe également des codons START, le plus souvent AUG, qui codent en même 
temps pour la méthionine. Pour initier la transcription, le codon START n’est pas 
suffisant. Dans les alentours du codon START, il faut des séquences d'initiation. 


Deuxième nucléotide du codon 


U e & 
UUU UCU UAU UGU 
: UUC PRÉE) UCC dei UAC Tyr (M) UGC Gys (G) 
UUA ê se UCA er (S) UAA nos UGA STOP 
UUG eu (L) UCG UAG UGG } Trp (W) 
CUU ccu CAU cau 
His (H) 
CUC (eare CAC cac 
© QU Leu (L) Sex Pro (P) SARL ne den Arg (R) 
cua& cca CAG loeres 
AUU ACU AAU AGU 
k AUC Leu (L) ACC RE AAC Asn (N) AGC Ser (S) 
AUA ACA r (D) AAA Ba TRe AGA ASTUR 
AUG Met (M) ACG AAG vs (K) AGG rs (R) 
GUU acu GAU À à (D) &aœau 
auc acc GAU &a&c 
13 ŒUA Val (V) CA Ala (A) GR ne GGA Gly (G) 
aua& aca GAG u (Œ) ca 





le promoteur est bloqué d’une façon ou d’une autre, le gène n’est pas transcrit. 
Sinon, la région promoteur sert à initialiser la transcription. À la jonction des 
exons et des introns se trouvent les sites d’épissage. 


6.1.1 Méthodes expérimentales : séquençage, 
PCR, électrophorèse, chips génétiques 


Si l’on détermine par une méthode analytique les nucléotides d’un brin 
d'ADN, on parle de séquençage. Une famille de méthode d’analyse physico- 
chimique, très utilisée à ces fins, est la chromatographie. La chromatographie 
sépare les composants d’un mélange par l’interaction d’un support qui crée la 
résistance et d’une force qui s'exerce sur les composants. Les différences en 
mobilité des composants les séparent. En biologie moléculaire, la technique la 
plus importante de ce type est l’électrophorèse, soit sur gel, soit en capillaire. Le 
mélange que l’on analyse consiste en fragments d'ADN, d’ARN ou de protéines. 
Ces molécules portent des charges et se déplacent sous l’influence d’un champ 
potentiel électrique. En capillaire, on observe le temps de passage; sur gel, 
le déplacement durant un temps fixe. Pour rendre visible les fragments, on 
peut utiliser plusieurs moyens. On peut marquer les molécules par des corps 
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radioactifs ou fluorescents par exemple. 

Une procédure clé que tout biologiste moléculaire utilise quotidiennement 
est l’amplification en chaîne par polymérase, bien connue sous les initiales PCR 
(« polymerase chain reaction »). Cette méthode permet d’obtenir d’un échan- 
tillon d'ADN d’importantes quantités d’un fragment spécifique. Il s’agit d’une 
technique essentielle pour amplifier et ainsi détecter des signaux faibles. 

Une autre procédure pour analyser un mélange complexe d'ADN ou d’ARN 
sont les chips génétiques ou « microarrays ». Cette méthode expérimentale ex- 
ploite l’hybridisation, c’est-à-dire la tendance de deux suites d'ADN ou d’'ARN 
complémentaires de s’accoupler en formant des ponts ou des liaisons hydro- 
gène. Le chip consiste en un grand nombre de courtes suites d'ADN ou d’ARN, 
chacune posée à un endroit bien précis. En mettant en contact le chip avec une 
solution qui contient le mélange à analyser, lhybridisation fait que certains des 
composants du mélange se fixent contre le chip. Cette technique est utile pour 
mesurer de manière simultanée le niveau d’expression d’un grand nombre de 
gènes ou de mesurer l’expression relative des gènes dans deux solutions mélan- 
gées. 

Les méthodes expérimentales décrites ci-dessus ont été développées comme 
outil de recherche fondamentale en biologie dont un exemple est le séquençage 
du génome de l’être humain. Aujourd’hui, ces méthodes sont appliquées à de 
nombreux problèmes, en particulier pour identifier les gènes associés avec des 
phénotypes, par exemple des maladies. Pour développer le traitement d’une 
maladie génétique telle que l’hémophilie, la connaissance des causes est impor- 
tante. Dans le cas de cette maladie, c’est par une analyse du processus de la 
coagulation qu’on est arrivé à isoler les facteurs VIII et IX responsables des 
différentes formes de la maladie. L'identification des gènes qui codent pour ces 
facteurs date des années 1980. Déterminer des gènes qui pourraient être liés à 
une maladie est généralement difficile. Les causes physiologiques de la maladie 
sont souvent peu claires et on ne sait donc même pas ce qu’il faut chercher dans 
le génome. 

Une des pistes ouvertes est la comparaison du génome d’un ensemble d’indi- 
vidus malades et du génome d’un ensemble d’individus sains. Il existe plusieurs 
possibilités pour sélectionner de tels ensembles. Soit on utilise deux échantillons 
plus ou moins choisis au hasard, soit on utilise des paires d'individus qui se res- 
semblent en ce qui concerne l’âge et d’autres caractéristiques — un sain, l’autre 
malade (paires appariées) — soit on base l’étude sur des familles dans lesquelles 
la maladie est un événement assez fréquent. Parce que les liaisons familiales 
sont connues, ce dernier plan d’étude est avantageux. Si l’on à une idée des 
gènes qui peuvent être impliqués, on peut par exemple mesurer le niveau d’ex- 
pression de ces gènes ou déterminer la séquence des gènes, ou encore mesurer 
l'expression relative dans une étude basée sur des paires appariées. Si l’on doit 
chercher dans le génome complet, le problème se complique. Déterminer la sé- 
quence du génome est trop cher, mais mesurer l’expression d’un grand nombre 
de gènes peut potentiellement donner des réponses. De nombreux ouvrages ré- 
cents présentent les méthodes statistiques pour analyser de telles données et 
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nous allons en grande partie laisser ce thème de côté. Des méthodes chromato- 
graphiques capables de déterminer la répartition des allèles dans de nombreux 
gènes sont également une possibilité. Quelques problèmes statistiques liés à une 
telle démarche sont présentés dans la section (6.3). 

Lorsque l’on peut mesurer la présence de marqueurs génétiques dans des tri- 
plets parents/descendant, il est possible d’utiliser la liaison génétique pour dé- 
terminer les régions chromosomales qui pourraient contenir des gènes influents. 
Un marqueur est un endroit sur un chromosome qui possède de nombreux al- 
lèles. Les VNTR (« variable number of tandem repeats » ) en sont un exemple. 
Il s’agit d’un phénomène où une courte séquence est répétée un certain nombre 
de fois et ce nombre peut varier d’une personne à l’autre. En utilisant une 
enzyme de restriction appropriée, des fragments de longueurs différentes sont 
créés et le génotype d’un individu peut ainsi être déterminé. Les SNP (« single 
nucleotide polymorphism » ) sont un autre exemple. Ce sont des pbpaires de 
bases qui varient dans la population. Pour qu’une telle mutation soit utile, il 
faut pourtant que la fréquence de la variante « wild-type » (la variante la plus 
fréquente) soit inférieure à 95 %. 


6.2 Variation génétique au niveau moléculaire 


Les outils de la biologie moléculaire offrent des méthodes précises et ra- 
pides pour déterminer le génotype. Plusieurs exemples de telles données et des 
modèles correspondants seront discutés ici. 


6.2.1 Polymorphismes des nucléotides 


Comme indiqué ci-dessus, un polymorphisme SNP est une paire de bases ou 
un nucléotide qui, parmi les individus d’une population, montrent une variation 
importante. Pour qu’une mutation soit appelée polymorphisme, il faut qu’au 
moins 5 % de la population soit porteuse d’un allèle muté. Dans la théorie des 
mutations neutres, avec un taux de mutation uw par gène et par génération, 
nous avons trouvé la formule 


H = proportion limite (stable) des individus hétérozygotes 


1 _. AN 
1+4Nu 1+4Nu 
Cela est valable sous l’hypothèse d’une infinité d’allèles distincts. Si l’on traduit 


cette infinité par la quasi-infinité de changements de bases (« infinite sites 
model »), on peut en déduire que, dans l’équilibre limite, il existe une proportion 





=1-F=1 (voir 4.14). 


ANu 


1+4Nyu è 


des paires de bases polymorphiques. 
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Ce résultat nous permet d’estimer le paramètre 4Nu sous la condition que 
le modèle comportant une infinité de sites soit approximativement vérifié. Pour 
effectuer cette estimation, nous allons tirer au hasard deux suites d'ADN dans 
une population, déterminer la séquence et effectuer une comparaison de la 
composition des suites. Soit (z1,...,1,) et (y1,...,Un) les deux séquences et 


soit 
n 


Sa = D Uoisu} 
i=1 
le nombre de positions où les deux séquences diffèrent. Sous le modèle compor- 
tant une infinité de sites, toute nouvelle mutation crée un nouvel allèle, encore 
jamais rencontré. Pour chaque site, la probabilité d’une modification vaut 0. Il 
s'ensuit que E(S2) = D, P(xi £ y) = D, 0 = n6 et un estimateur de @ 
est alors donné par 


Si l’on sélectionne au hasard k > 2 séquences, il faut adapter cet estimateur. 
Dans ce cas, les données peuvent être représentées sous forme d’un tableau : 








T11 212 ‘'" Lin 
T21 Z21 ‘‘ Von 
TE1 ZKk2 ‘'  Lkn 








où tj € {A, T, C, G} représente le nucléotide de l’individu 4 en position 3. 
La statistique S4 compte le nombre de positions avec au moins une base diffé- 
rente parmi les k individus. Rappelons que le modèle comportant un nombre 
infini d’allèles est tel que si k — 1 allèles ont été choisis, la chance de voir un 
nouvel allèle au k° tirage vaut 


ANu 


Lana © ANVH/E— D) = 8/1). 


Si lors d’un tirage on trouve que æ1; = 25, la probabilité que t1; = %2; # 3; 
est donc à peu près égale à 0/2 et pour l'espérance de $% on trouve la formule : 
1 
E(S3) — n0+-n0 


2 
1 1 
ms = mfitlretp) 


=s/(È ui) 





Alors, 


D> 
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Exemple 6.1 Lors d’une étude, on a établi les séquences de k = 5 allèles sur 
une longueur de n — 500 bases. La valeur de la statistique S5 était de 16, 
c’est-à-dire montrait une différence entre les 5 suites. L’estimation de 0 vaut 


donc 
Nan 6 / (50014121, 1)\ 5% 
FT CR | 


L’estimation de la fraction des nucléotides mutables est un problème bien 
posé, mais la solution ci-dessus est assez simpliste. La fraction pourrait changer 
selon la région chromosomale et même selon l’endroit précis dans le génome. 
Il existe des « hot spots» mutationnels ou des mutations semblent avoir lieu 
avec un taux anormalement élevé. Si l’on souhaite tirer des connaissances sur 
u et N de l’estimateur 6, il faut donc argumenter avec prudence. Il est fort 
probable que ni le taux de mutation y, ni la taille de la population N ne soient 
des constantes. 


6.2.2 Arbres phylogénétiques 


Jusqu'à maintenant, nous avons considéré les différences dans des séquences 
d'ADN entre individus de la même espèce. Mais les mutations sont également le 
moteur de l’évolution des espèces. En comparant deux espèces, on trouve beau- 
coup de couples de gènes, un de la première espèce et l’autre de la deuxième, 
qui se ressemblent dans leur structure et leur fonction. La théorie sur l’évo- 
lution de Ch. Darwin postule un processus dans lequel deux espèces actuelles 
peuvent avoir une lointaine espèce comme ancêtre commun et les différences 
dans le génome que l’on observe aujourd’hui sont dues au développement des 
deux espèces depuis leur séparation. Deux gènes similaires provenant de deux 
espèces différentes sont dits homologues, s’ils ont un ancêtre commun lointain 
dans l’histoire de l’évolution naturelle. Lorsque l’on détermine la séquence d’un 
gène dans une plante, un virus, etc., la première chose faite par le chercheur 
est de comparer avec une base de données, afin de trouver d’autres gènes sem- 
blables. Cela peut donner une idée sur la fonction du gène, dans le cas où la 
fonction provenant de la base de donnée est connue. 


Évolution de protéines 


Pour modéliser les mutations de protéines durant de longues périodes, on 
peut proposer des modèles de base très simples. Supposons par exemple que 
le remplacement d’un acide aminé par un autre se fasse par un processus de 
Poisson avec un taux À par an. Dans ce cas, si la protéine contient n acides et si 
A(t) et D(t) = A(t)/n sont respectivement le nombre et la proportion d’acides 
aminés différents dans deux protéines homologues, on à : 


A(t+A) = (n-— A(T))2A X+ A(t) + O(A?) 
D(t+A) = (1-D(t))21A + D(t) +O(A?) 
D'G) = (=-D(H)A = Db=1-e À 
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t = le temps depuis 
0 la séparation Le facteur 2 est dû au fait que les 
deux protéines sont guidées par le 
même processus aléatoire, ce qui si- 
4 gnifie que, durant un temps À, les 
t+A deux protéines s’éloignent de 2A. 





Y 


Sous ce modèle, le nombre de changements suit une loi de Poisson avec 
espérance 


K = 2t. 
Alors 








D(t)=1-e * K =2Àt= -In(1 — D(t)). 


Par l’observation de deux protéines homologues dans deux espèces, on peut 
estimer la proportion D et ensuite en déduire K, qui dépend linéairement de la 
durée de l’évolution depuis la séparation de l’ancêtre commun. Sous l’hypothèse 
d’un processus de remplacement homogène dans le temps (À = constante), on 
peut ainsi estimer le temps de séparation de deux espèces. L'hypothèse d’un 
taux constant est appelée l’horloge moléculaire. Le temps de séparation peut 
également être estimé indépendamment par des données paléontologiques et ce 
test rend crédible l'hypothèse de l’horloge moléculaire. Notons pourtant que la 
valeur de À semble varier beaucoup d’une région chromosomale à l’autre. 


Taux de substitution de nucléotides 


Le même modèle poissonien peut être appliqué aux mutations au niveau de 
P'ADN. Dans le modèle le plus simple, les mutations ponctuelles 


AT, AC, A—G, T-A,... 


se font à taux constant a. Soit PA(t) la probabilité qu’un nucléotide soit égal 
à À au temps t, en sachant que l’état initial a été À. On a 


Pat + A)& (1 — 3a A) PA(t) + aA (1 — Pa(t)), 
 ——”/ —— 
1 — 3a À = probabilité probabilité qu’un 
que le nucléotide nucléotide autre que 
ne change pas A change et 


devienne À 


où l’erreur de l’approximation est de l’ordre o(A). La limite lorsque À — 0 de 
cette équation nous dit que : 


Pi(t) = a — 4a Pa(t). 
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Les solutions de cette équation différentielle linéaire d’ordre 1 sont de la forme 
Pa(t) = & +C'e-#%! avec une constante C' quelconque. Pour que P4(0) = 1, 
on est obligé de choisir C' = : et obtient 


Pat) = + 3e tt, 


Sous ces hypothèses, les quatre nucléotides ont la même fréquence et lorsque 
t — oo, Pat) — L. L'état initial À change et le nucléotide devient À, T, G 
ou C avec probabilité + chacun. Ce modèle à été proposé par Jukes et Cantor 
(voir Jukes et al., 1969). 

Si, maintenant, nous considérons deux espèces qui ont divergé il y a t années, 


et qu’on applique le modèle, on constate que : 
d = 1—-PA (2t) 
0 — probabilité qu’un nucléotide 
qui valait À au temps t — 0 


soit aujourd’hui différente 


er 82 t 





| co 


How BIC 


(1- e) | 


Si, comme auparavant, nous introduisons à, le taux de changement de nu- 
cléotides, nous trouvons À = 3a, car il y à pour tout nucléotide trois modifica- 
tions possibles et les trois sont équiprobables. Le nombre espéré de changements 
d’un nucléotide durant une période de t années est donc k& = 2Àt = Gat, ce qui 
implique d — 3(1 — e-#K/3), Une estimation de k est possible à travers de d 
par : 

k= 3.8at = —-i In (1-— $d). 
La figure 6.2 montre la liaison entre k et d. En analogie avec les protéines, on 
peut estimer d par la proportion de différences d entre deux séquences d'ADN 
homologues. 

Ce modèle simple d’un processus Poissonien avec taux a unique n’est pour- 
tant pas réaliste. Plusieurs généralisations sont possibles : 


(i) le taux de substitution dépend du nucléotide ; 


Les transitions (A «+ 








D , JE ea <o) So ol 
= fréquentes que les transver- 
en : 8 p 8 p sions AT, Te G, A4 
ro pe CO, C'& G). La matrice des 
Ci ie PE B taux à gauche reflête cette 
Gi 6 “06 46 . 





situation (Kimura, 1980). 
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Figure 6.2 — Si la probabilité d’une modification d’un nucléotide est petite, le nombre 
espéré de changements par nucléotide est également petit et a peu près de là même 
taille, mais un bout plus grand. Si, par contre, la probabilité s'approche de 75 %, le 
nombre de changements tend vers © et l’estimation de k n’a plus aucun sens. 


(üi) La vitesse de lhorloge moléculaire est modélisée par un processus stochas- 
tique (par exemple dû à un environnement aléatoire). Ce modèle s’ajuste 
mieux aux données de substitutions qui, selon le processus Poissonien, 
devraient suivre une loi P(y) avec espérance — variance — y. Dans des 
données réelles, la variance est souvent supérieure à l’espérance ; 


(ii) Il existe deux types de substitutions de nucléotides, celles qui ne changent 
rien au niveau de la protéine (mutations silencieuses) et les autres. Il 
s’avère que le taux de changement des mutations silencieuses est plus 
élevé ; 


(iv) Une généralisation importante concerne la situation où plusieurs gènes 
sont séquencés pour chaque espèce et peut-être même pour plusieurs in- 
dividus de chaque espèce (différences inter-espèces et intra-espèces). 
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Construction d’arbres par classification hiérarchique 


Pour construire des arbres phylogénétiques, les données de base sont des 
protéines homologues dans un ensemble d’espèces : 




















espèces acides aminés 

espèce 1 | @i1 @12 *°: Gin 
espèce 2 | @21 G@22 ‘°: An 
espèce 3 @a31 32 °:: An 
espèce k | ax1 @x2 °°:  Gkn 

On pose 
D;; = pourcentage de différences entre espèces 1 et j. 
2X bi = K;; = —In(1 — D;;) = distance dans le temps entre espèces 1 et 3. 


À l’aide de ces distances, on peut construire un arbre phylogénétique approxi- 
matif. Rappelons que l’idée de base dans l’évolution est l’existence d’espèces qui 
ont disparu, mais qui servent comme ancêtres communs de deux ou plusieurs 
espèces actuelles. L'arbre phylogénétique montre la relation entre les espèces 
actuelles et les ancêtres communs, et donne une indication du temps depuis la 
séparation des espèces. Une construction hiérarchique nous permet de déduire 
un arbre en utilisant l’algorithme suivant très simple. On commence au temps 
actuel et on recule vers le passé. En reculant, des espèces s’unissent et forment 
des groupes. L’algorithme s’arrête lorsqu'un seul groupe englobant toutes les 
espèces initiales est créé. À cette étape, l'ancêtre qui est commun à toutes les 
espèces à été trouvé. 
Algorithme de classification hiérarchique appliqué à n espèces : 


[CO] Pour initialiser la procédure, on pose £ — 0. Au début, chaque espèce 
forme son propre groupe et la matrice des distances entre groupes est 


(d) = (K;;) pour 0 <i,j <n. 


ij 
[C1] Les deux ou plusieurs groupes les plus proches sont fusionnés avec la 
distance de fusion min;,; (as), 


[C2] La matrice des distances entre groupes doit être recalculée car, par la 
fusion, un nouveau groupe à été créé et deux ou plusieurs des anciens 
groupes ont disparu. Pour cela, il suffit de formuler une règle qui définit 
la distance entre un ancien groupe et le nouveau groupel. On notera 
Ci la nouvelle matrice des distances. 

[C3] Lorsqu'un seul groupe reste, l’algorithme s’arrête, sinon on pose { = {+1 
et on recommence avec [C1]. 
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Ÿ Soit Gi = {i,...,} et Go = {j1,..., 7} les espèces dans les deux groupes. 
Trois choix courants pour définir la distance entre groupes d’espèces sont les 
suivants : 


distance(G1,G2) — max À;; 

/ 1€G1,€G2 é 

distance(G1,G2) — min À;; 
i€G1,7€G2 

distance(G1,G2) — MOYENNE; G 5€ Ga Lij 


Le résultat final de cet algorithme est une suite croissante de distances de 
fusion et une suite d’agglomérations des espèces en groupes de plus en plus 
grands. On peut représenter cette suite de fusions par un dendrogramme, un 
arbre à n branches finales et une seule racine. Pour que l'arbre aït un sens 
génétique, on peut démontrer que la troisième des distances ci-dessus est le 
bon choix. 

Des méthodes plus sophistiquées existent pour estimer et comparer des 
arbres phylogénétiques. Elles se basent sur un modèle stochastique de l’évo- 
lution des protéines ou séquences ADN et calculent la vraisemblance des dis- 
tances observées des espèces biologiques actuelles en fonction de l'arbre. Aïnsi, 
l'arbre le plus vraisemblable peut être trouvé et on peut tester si un arbre est 
significativement différent d’un autre arbre légèrement modifié. 


Supposons que pour les espèces À, B, et C on 
trouve l’arbre phylogénétique à droite. Cet arbre 
indique que la séparation entre À et {B,C} a eu 
lieu d’abord, suivi de la séparation entre B et C. 


> 
(es) 
æ@! 


Peut-on être sûr de l’arbre estimé? Est-ce que 
l'arbre à droite, qui postule une séparation au même 
moment, est significativement différent ? 





Ô 


A B C 


Une réponse possible est basée sur l'estimation des longueurs des branches 
de l’arbre et leurs écarts-types. On peut aussi calculer la vraisemblance associée 
aux deux arbres puis faire une comparaison à l’aide du test du rapport des 
vraisemblances. 
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Bio-informatique : aligner deux séquences 


La bio-informatique n’est pas le sujet de ce livre, mais trouver des séquences 
avec une bonne similitude est un problème tellement fondamental que nous 
allons en discuter brièvement dans cette section. Pour une présentation plus 
détaillée, le lecteur est invité à consulter par exemple Waterman, 1995, ou 
Setubal et Meidanis, 1997. 

L'analyse de séquences ADN, ARN en acides aminés pose un défi au niveau 
informatique. Comment organiser des bases de données ? Comment trouver 
parmi tous les éléments stockés un élément qui ressemble à une séquence don- 
née ? L’alignement de deux séquences est une procédure sous-jacente à de nom- 
breuses questions de ce genre. Un alignement possible de ACTGC et ACGTC 
est indiqué ci-dessous : 


Ici, À, Get C sont en correspon- 
dance (« match»). Pour y arriver, 
on à parfois dû introduire un trou 
ou un espace (—) dans les deux 
suites (« gap»). De plus, les nucléo- 
tides T'et C' en position trois ne se 
correspondent pas (4 mismatch »). 


> 
D À 
H | 
Q Q 


Le diagramme suivant montre un autre cas possible : 


Cette deuxième solution semble 
C préférable, car au lieu de 3 cor- 
C respondances, 1 faute et 2 espaces, 
l’arrangement contient ici 4 corres- 
pondances et 2 espaces. 


T 


A C G — 
A C —- GT 


Chacun des alignements ci-dessus représente une évolution différente des 
deux séquences. Les deux espaces dans la première correspondent à des délé- 
tions ou insertions. Toute faute représente une substitution d’une autre base 
dans l’une des deux séquences. 

Comment déterminer le meilleur alignement ? Pour formaliser mathémati- 
quement cette question, on peut introduire un score, dit similitude, qui mesure 
la qualité d’un alignement. On peut par exemple prendre la définition suivante : 


similitude = # correspondances — #fautes — 2 # espaces. (6.1) 


Ce score favorise la substitution sur une délétion ou insertion. Plus générale- 
ment, on peut considérer une version pondérée de cette somme : 


similitude = c x # correspondances — f x {fautes — d x {espaces 
avec poids c pour chaque correspondance, —f pour chaque substitution et —d 


pour chaque délétion/insertion. L’alignement optimal est celui qui maximise le 
score. 
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L’algorithme que nous allons étudier à été publié dans Needleman et Wunsch, 
1970. Il est un exemple de la programmation dynamique. Le but de cet algo- 
rithme est de trouver un ou plusieurs alignements qui maximisent la similitude 
de manière globale. De nombreux autres algorithmes existent pour déterminer 
des alignements construits de manière locale. 

Soient (a1---a,) et (b1:--bM) les deux séquences à aligner et la similitude 
(6.1). L’algorithme de Needleman et Wunsch calcule pour chaque couple (, j) 
(i=0,1,...,net j =0,1,...,m) la similitude maximale s;; que l’on obtient en 
alignant (a1,...,a;) et (b1,...,b;). Si i = 0 ou j = 0, on interprète la séquence 
correspondante comme étant vide et on y associe une similitude de zéro. Le 
calcul de s;; se fait de manière récursive selon la formule 


Sij = MAX {85,51 — 2, 8-1, — 2, 81,51 + Ti}, (6.2) 


où rij = 1, si &; = b;, et r;j = —1, si a; £ b;. La première possibilité dans cette 
formule se réalise lorsque l’alignement de (a1,...,a;) et (b1,...,b;) se construit 
sur la base de Palignement de (a1,...,a:) et (b1,...,b;_1) en ajoutant le couple 
formé d’un espace et de b; : 





(a1,...,@i) = 


seat) b; 


La deuxième possibilité est analogue à la première sauf que a; est aligné avec 
un espace. La troisième possibilité finalement résulte en ajoutant l’alignement 
a; et b; à (a1,...,@;i-1) et (b1,...,b;_1). Dans ce troisième cas, le score dépend 
des valeurs de a; et b;. Le tableau 6.2 indique les calculs pour deux courtes 
séquences. 

Les séquences sont a — À,a2 = C,az = T,as = Gas = C et by — 
À, bo Cb3 G,b4 T,bs C. Pour les calculs on y ajoute l’élément 
vide ( en première position et on arrange la séquence b en ligne et la séquence 
a en colonne. Ensuite, on démarre le calcul de s;; en remplissant la première 
ligne et la première colonne par les scores 0, —2, —4, etc., le pas étant déterminé 
par le poids —2 attribué à la délétion/insertion. Ensuite, on applique la formule 
récursive (6.2), soit ligne par ligne, de gauche à droite, soit colonne par colonne, 
de haut en bas. La valeur dans la deuxième cellule de la deuxième colonne par 
exemple est 























l=maxf-2-2-2-2 01): 


Évidemment, on peut calculer la valeur d’une cellule à l’aide de trois voisins, 
celui à gauche, celui en dessus et celui en diagonale nord-ouest. 

Une fois la matrice s;; remplie, on à non seulement calculé la similitude 
du meilleur alignement, mais également l’alignement lui-même. L’alignement 
est trouvé en traçant un chemin de la cellule (n,m) en bas et à droite de la 
matrice, vers la cellule (0,0) en haut et à gauche. D’une cellule, on peut passer 
à une des trois cellules qui ont été utilisées pour calculer sa valeur et on doit 
toujours faire le passage vers la cellule qui à déterminé la valeur maximale dans 
(6.2). S’il y a plusieurs cellules voisines de ce type, la solution n’est pas unique 
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Table 6.2 — Les entrées de la matrice montrent la similitude maximale lorsque l’on 
aligne (a1,...,ai) et (b1,...,b;) (0 <i < net 0 < j < m). Les flèches montrent 
comment la valeur de chaque cellule est calculée. Elles pointent vers les cellules qui 
déterminent le maximum dans (6.2). 





























(] Â C G T C î 
(] 0 « 2 _« 4 « 6 « 8 + 10 10 
a 
Â —2 1 + 1 «+ 3 + 5 « 71 
Ke 
C —À4 —1 2 +— 0 « 2  « 412 
fr + 
T —6 —3 0 1 le; —1 3 
OT Ne Ne 
G —8 —5 —2 1 0 0 | 4 
NC À ES ÈS 
C | —10 —7 —4 —1 0 115 
j 0 I 2 3 4 5 


et plusieurs alignements optimaux existent. À l’aide des flèches du tableau 6.2 
tous ces chemins sont faciles à trouver. Dans l’exemple, l’unique chemin est le 
suivant : 


(5,5) — (4,4) 3,3) — (2,2) — (1,1) — (0,0). 





Cela correspond à l'alignement 





AICIT GC 
AICIG IT IC 























La similitude de cet alignement vaut effectivement 3 — 2 = 1. 

Le tableau 6.2 contient un seul exemple où l'alignement optimal n’est pas 
unique. À partir de la cellule (5,2), il y a deux chemins vers (0,0) : (5,2) — 
(4,2) — (3,2) — (2,2) — (1,1) — (0,0) ou (5,2) — (4,1) — (3,1) — (2,1) 
(1,1) — (0,0). Les alignements correspondants sont : 











AE G re 
APE ER 





et 





AICITIGIC 
à hole del 























Il est clair que ces deux alignements sont optimaux et la similitude vaut 2—6 = 
—4. 


Chapitre 6. Génétique moléculaire 137 





En pratique, la recherche d’un alignement globalement optimal n’est pas 
faisable, car les coûts en calcul sont trop importants. Des méthodes d’opimisa- 
tion heuristiques telles que BLAST (« Basic Local Alignment Search Tool» ) 
ont pris la place de l’algorithme ci-dessus. 


6.3 L’épidémiologie moléculaire : identifier 
les causes génétiques de maladies communes 


Pour découvrir les causes génétiques d’une maladie, on doit établir une re- 
lation entre le phénotype (la présence ou l’absence de la maladie) et certains 
génotypes. Parfois, le génotype de l’individu provoque de manière directe une 
maladie. Si, par exemple, les cellules d’un organe ne produisent pas une cer- 
taine enzyme, une maladie peut en résulter. Dans ces cas, on parle de maladies 
génétiques, car le mécanisme qui provoque la maladie est directement lié à 
la malformation d’un seul ou des deux allèles dont l'individu est porteur. En 
analysant les symptômes d’une telle maladie et en faisant des comparaisons 
entre les réactions d'individus sains et malades, on peut identifier la cause. Un 
exemple célèbre est l’hémophilie. En très grande majorité, ce sont les hommes 
qui sont affectés. Si un gène est impliqué, il devrait donc se trouver sur le 
chromosome X. Au cours des années 1960, et à l’aide d’une analyse du sang 
d’hémophiles, la cause à été découverte : elle se trouvait dans l’absence de fac- 
teurs de coagulation. De nos jours, les recherches sur les diverses mutations 
liées à cette maladie continuent. 

L'effet génétique n’est pas toujours aussi direct. Il se peut qu’une maladie 
soit le résultat d’une dégradation lente d’un système comme le cœur ou le 
système digestif. Certains génotypes accélèrent seulement ce processus mais ne 
sont pas ses causes directes. Dans une telle situation, on parle de facteur de 
risque. Une preuve de l’existence de tels facteurs de risque sont les maladies 
qui semblent être beaucoup plus fréquentes dans certaines familles que dans 
d’autres. Comment expliquer ce risque familial si ce n’est pas par des effets 
environnementaux ou par l’action de la génétique. 

Les méthodes moléculaires se sont développées très rapidement et nous per- 
mettent aujourd’hui de déterminer une multitude de variables liées à la géné- 
tique. De telles variables sont appelées biomarqueurs ou marqueurs génétiques. 
Parmi eux, on peut compter les spectres mutationnels d’un gène (l’identifica- 
tion de la fréquence des divers allèles dans une population), la présence de 
mutations spécifiques dans un échantillon de cellules, et le profil d'expression 
d'ARNm d’une multitude de gènes dans un échantillon de cellules. On peut 
aujourd’hui mesurer les profils d'expression d’une multitude de gènes à l’aide 
de la technologie des chips génétiques ou « microarrays ». Avec cette méthode, 
on peut aussi mesurer la présence d’environ 500 000 SNP dans le génome d’un 
individu. De telles données créent une demande pour la modélisation statis- 
tique et le développement de méthodes bien adaptées. Pour se faire une idée 
de ce domaine, le lecteur est invité à consulter Berrar et al., 2003, ou Speed, 
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20083. 

La difficulté centrale de l’utilisation du génotype comme variable biomédi- 
cale est sa complexité. Lorsque l’on souhaite corréler génotype et phénotype, 
de quelle variable génétique parle-t-on. Si l’on soupçonne d’avance un gêne 
d’être responsable d’un certain caractère phénotypique, disons le gène U, alors 
la tâche est facilitée. Il s’agit simplement de confirmer le soupçon ou de le 
réfuter. Des marqueurs liés à ce gène sont suffisants pour la solution. Si rien 
n’est connu, la tâche semble insurmontable, car comment peut-on examiner le 
génome complet ? Deux approches sont possibles. D’un côté, il est possible de 
restreindre partiellement la recherche. Si l’on sait, par exemple, que la mala- 
die touche un processus biochimique dont on connaît partiellement les gènes 
responsables, on peut limiter sa recherche. D’un autre côté, on peut prendre 
au sérieux le défi d’un génome scan et travailler avec des marqueurs répartis 
partout dans le génome. 

Une autre difficulté reste ouverte. De quelle corrélation parle-t-on ? Si un 
gène peut augmenter le risque d’une maladie, il faut qu’au moins un allèle muté 
du gène en question existe et que les individus qui en possèdent une ou deux 
copies aient une fréquence élevée de la maladie. Inversement, cela voudrait dire 
que l’allèle en question est enrichi parmi les individus touchés par la maladie. Il 
est même fort probable que plusieurs allèles de ce type existent, car beaucoup de 
mutations différentes peuvent rendre un gêne inactif en ce sens que la protéine 
s’y rapportant n’est plus produite. Toutes les méthodes pour trouver de tels 
allèles se basent sur la liaison génétique. Du fait de la liaison génétique, la 
séquence d'ADN au voisinage d’un allèle muté, son haplotype, est préservée 
durant beaucoup de générations. Toute nouvelle mutation se produit dans un 
individu avec un haplotype particulier. Si un tel allèle augmente le risque d’une 
maladie mais s’il ne crée aucune pression sélective, l’allèle se transmet aux 
générations suivantes avec son haplotype initial plus ou moins préservé. Cela 
simplifie la recherche d’allèles « à risque », car il suffit d'identifier des haplotypes 
au lieu d’allèles. Cet argument est affaibli, mais reste valable lorsque la même 
mutation « à risque » à eu lieu à de multiples reprises ou bien lorsque plusieurs 
allèles « à risque » existent pour la maladie. 

Deux plans d’études épidémiologiques existent pour identifer des haplotypes 
« à risque » pour une maladie particulière : 

— l’étude de familles qui ont une prédisposition pour cette maladie; 

— la comparaison d'échantillons d'individus sains et malades dans une étude 

rétrospective (4 case/controle study » ). 

Les familles royales européennes, par exemple, auraient été un bon choix 
pour une étude génétique sur l’hémophilie. Dans d’autres cas, comme une pres- 
sion sanguine anormalement élevée ou le diabète du type 2, on peut trouver 
des familles avec beaucoup de membres touchés par la maladie. Le fait que les 
relations génétiques entre membres de la famille soient connues est un avantage 
des études familiales. En déterminant le génotype de chaque individu, on peut 
voir quel marqueur se transmet avec la maladie et tenter de trouver des cor- 
rélations ou liens entre génotype et maladie (phénotype). Même aujourd’hui, 
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identifier le génotype d’une personne serait une tâche trop onéreuse, car elle 
reviendrait à séquencer le génome entier. 

Dans une étude familiale, on mesure des marqueurs génétiques sur les 
membres de la famille et on tente de trouver des corrélations ou liens entre 
marqueurs et maladie (phénotype). Les données consistent en un ou plusieurs 
arbres généalogiques, le diagnostic médical de chaque individu (affecté par la 
maladie oui/non) et les marqueurs génétiques. Pour l’analyse, on suppose l’exis- 
tence d’un allèle qui cause la maladie ou qui sert comme facteur de risque. Sup- 
posons que l’allèle soit dominant. En parcourant les données, on peut identifier 
les marqueurs qui sont présents chez une majorité des individus atteints par 
la maladie et absents chez les autres individus. Pour quantifier la liaision, on 
utilise la fraction de recombinaison r (voir section 3.3) entre le marqueur et le 
gène qui transmet la maladie. Tout triplet (sous-famille) composé de parents 
et descendant dans lequel un des trois porte la maladie peut être utilisé pour 
observer des recombinaisons. Prenons comme exemple une mère atteinte par 
la maladie et son descendant qui ne l’est pas. Dans la transmission génétique, 
il y a deux possibilités équiprobables, soit le descendant a reçu de sa mère le 
deuxième allèle, soit il a reçu l’allèle « à risque ». Parce qu’il n’est pas malade, 
la première possibilité à été réalisée. Si la mère est porteuse du marqueur soup- 
çonné et le descendant également, on sait qu’il y avait recombinaison, car sinon 
le descendant serait porteur de l’allêle « à risque ». La probabilité de cette si- 
tuation est donc proportionelle à r. Si, en revanche, le descendant à reçu de sa 
mère un autre marqueur, on sait qu’il n’y avait pas recombinaison et la pro- 
babilité est proportionnelle à 1 — r. En multipliant toutes ces probabilités, on 
obtient la vraisemblance L(r) qui est égale à la probabilité de la répartition 
observée de la maladie et du marqueur parmi les membres de la famille. La 
valeur f qui maximise la vraisemblance donne un estimateur de la fraction de 
recombinaison. Si f est près de 1/2 on peut conclure qu’il n’y a pas de liaison 
entre allêle « à risque » et marqueur. Mais si r est près de zéro, une forte liaison 
existe et le gène soupçonné devrait se trouver dans le voisinage du marqueur. 
Le rapport L(f)/L(r) sert à quantifier l'évidence en faveur de la liaison. En 
génétique log:0(L(f)/L(r), le LOD score, et la borne de 3 sont recommandés. 
Un score plus grand que 3 est pris comme « preuve » pour la liaison génétique. 

L'analyse décrite ci-dessus est simpliste, car elle est faite sous la condition 
que la maladie atteigne obligatoirement tout individu porteur de l’allèle « à 
risque ». En introduisant la pénétrance, la probabilité conditionnelle que la 
maladie se déclenche en sachant que l’individu a reçu le mauvais allèle, on peut 
modifier la vraisemblance. Des erreurs de dépistage et d’autres difficultés encore 
peuvent également être introduites dans le modèle. 


6.3.1 Génome scan 


Dans Morgenthaler et Thilly, 2007, on trouve des idées liées aux études ré- 
trospectives d’association entre phénotype et génotype avec deux cohortes, une 
composée d'individus atteints de la maladie (cohorte M) et l’autre composée 
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d'individus sains (cohorte S). Les relations génétiques entre individus n'étant 
pas connues, on ne peut pas détecter des recombinaisons. On peut en revanche 
comparer la répartition des marqueurs dans les deux cohortes. Un marqueur 
qui transmet un risque pour la maladie aura une fréquence accrue dans la co- 
horte M. Un marqueur neutre aura une répartition équilibrée et un marqueur 
qui fournit une protection contre la maladie sera fréquent dans la cohorte $. 

Si Nu et N$s sont les nombres d'individus dans les cohortes, on aura 2Ny 
et 2N5s allèles de chaque gène autosome dans les deux groupes. La majorité 
de ces allèles sont du type sauvage (« wild type »), les autres sont des allèles 
mutés. Pour illustrer quelques problèmes spécifiques, supposons que les données 
à disposition soient les nombres d’allèles mutés ny, et ns dans les deux cohortes. 
Pour identifier des gènes « à risque », on effectue pour chaque gène un test de 
l'hypothèse nulle Ty = Ts, où rw est la vraie fréquence des allèles mutés dans 
la population de gens touchés par la maladie, et rs celle des gens non touchés 
par la maladie. L’alternative rw > Ts est intéressante lorsque l’on cherche des 
gènes qui sont porteurs de risque pour la maladie. L'autre alternative Ty < Ts 
indique des gènes qui protègent contre la maladie. Parce que les deux sont 
d'intérêt, le test est bilatéral. L’estimation des probabilités T7 et rs s'effectue 
par les fréquences nw/(2Nm) et ns/(2N5s). On rejette l'hypothèse nulle si la 
différence 

S=nm Ns/Nu ns 


est grande en valeur absolue, soit positive, soit négative. Si les deux cohortes 
sont de taille importante, la distribution de cette statistique est proche d’une 
loi normale avec espérance et variance : 


E(S) = np =2NuruNs/Nu — 2Nsts = 2Ns(mm —7s) 
Var(S) = o°=2Nunm(i-7rm)NS/N, + 2Nsns(1-#s) 
= 2Ns(ru(1 — rmu)Ns/Nu + rs(1 — xs)). 


Cette variance peut être estimée par 
V = (2Ns/4) (nm (2Nu — nm)Ns/Nÿ + ns(2Ns — ns)/N$). 


Sous l'hypothèse nulle, on a E(S) = 0 et S/VV suit a peu près une loi normale 
centrée et réduite. Dans les cours de statistique, on enseigne deux façons dif- 
férents de traiter un tel test. Soit on calcule le quantile 97,5 % de la loi nulle, 
ce qui donne 1,96 dans notre cas, et on rejette lorsque la valeur absolue de 
la statistique dépasse cette valeur critique. Soit on calcule la p-valeur du test 
pv = 2(1— D(|S}/VV)), où P( ) est la fonction de répartition normale. On re- 
jette l'hypothèse nulle pour des p-valeurs inférieures à 5 %. Ces deux méthodes 
sont équivalentes et on rejette donc selon un des deux critères suivants : 


Rejet de rm =7s & |S|/VV > 1,96 
& 2(1-&(15/VV)) <5%. 
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Le résultat d’une telle procédure sera néanmoins absurde dans un génome 
scan. Il y a au moins N = 20000 gènes et hypothèses nulles à tester. Même 
si l'hypothèse nulle est juste et vraie, un test statistique peut la rejeter par 
manque d’information dans les données. Pour notre règle ci-dessus, un tel faux 
rejet arrive avec une fréquence de 5 %. Le nombre de gènes que nous allons 
découvrir comme étant impliqués dans la maladie sera donc autour de 1 000 = 
0,05 x 20 000 et toutes ces découvertes seront fausses, car l'hypothèse nulle est 
en réalité juste. Une telle procédure est sans aucune valeur médicale. 

Que faire? En modifiant la procédure, on peut arriver à une méthode va- 
lable. Supposons que 10 fausses découvertes ne dérangent pas. L’espérance du 
nombre de fausses découvertes est égale à Na où a est la probabilité d’un faux 
rejet par test. La solution de 10 = Na est a = 10/N — 0,0005. Autrement dit, 
parce que 10 = 0,0005 x 20 000, il faudrait simplement remplacer l’ancienne 
règle par 


Rejet de rm =7rs & |S|/VV > 348 
& 2(1-&(1s1/VV)) < 0,05 %, 


où 3,48 à été calculé comme le 0,025 % quantile de la loi normale. Si on dit que 
la probabilité même d’une seule fausse découverte doit être inférieure à 5 %, 
on peut argumenter comme suit : 


P(aucune fausse découverte) — 


20 000 
P | MN {i® test ne rejette pas inmen)) 
i=1 


20 000 
=1-P | U {i° test rejette nent) ) | 


i=1 


Cette égalité se base sur la loi de De Morgan (AN B)° = AU B°, le complé- 
ment de l'intersection de deux ensembles est égal à l’union des compléments 
des deux ensembles. En d’autres termes, la chance qu'aucun des N = 20000 
tests ne rejette faussement est égale au complément de la chance qu’il existe 
un test parmi les 20 000 qui rejette faussement. Si on à une borne supérieure 
P {i° test rejette faussement} < à, on peut borner la probabilité de l’union par 


20 000 
P | U {if test rejette insment)) < 20 000 x a. 


i=1 


Finalement, nous pouvons résoudre notre problème initial qui consiste à assurer 
que 
1 — P(aucune fausse découverte) < 5 %. 


On peut certainement le vérifier si on choisit a tel que 


20000 *a<5%e&a<5%/N =5%/20000 = 0,00025 %. 
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Cette approximation est dite la règle de Bonferroni et nous amène au test : 
Rejet de rm =7s & |S|/VV > 4,71 
& 2 (i _& (1s1/VV)) < 0,00025 %. 


Il y à donc une suite de tests possibles, des tests de plus en plus sévères. La règle 
de Bonferroni est la plus sévère dans le sens que lorsque le test de Bonferroni 
rejette l'hypothèse nulle, le test classique au niveau de 5 % la rejette également. 
Mais l’inverse n’est pas vrai. Le test classique rejette trop souvent. 

La règle de Bonferroni ci-dessus peut être ré-écrite comme suit : 


Rejet de ru = Ts & p-valeur < 5%/20 000. 


Pour calculer la borne qui sépare le rejet du non-rejet, il faut donc simplement 
diviser le niveau souhaité du test (5 %) par le nombre de tests que lon effectue 
(N = 20 000). Cette règle simple est pourtant jugée trop sévère par beaucoup de 
chercheurs. Une possibilité intermédiaire a déjà été évoquée. On peut limiter le 
nombre espéré de fausses découvertes. Un autre compromis est celui proposé par 
Benjamini et Hochberg (1995). Leur procédure modifie la règle de Bonferroni en 
triant les N hypothèses nulles selon la p-valeur. L'hypothèse avec la plus petite 
p-valeur est celle que l’on a le plus envie de rejeter. Parce qu’elle possède la plus 
petite p-valeur parmi N, on rejette celle-ci lorsque la p-valeur est inférieure à 
la borne de Bonferroni, c’est-à-dire p-valeur < 5 %/N. Pour la k° plus petite 
p-valeur, on augmente la borne à 5 %/(N — k + 1), car il s’agit de la plus 
petite p-valeur parmi les N — k + 1 qui n’ont pas encore été traités. Soit la 
plus grande valeur de k telle que la k° plus petite p-valeur est inférieure à sa 
borne et pour tout j > k la j° plus petite p-valeur dépasse sa borne. Dans 
ce cas, la règle de Benjamini-Hochberg rejette les hypothèses 1 jusqu’à k. On 
peut démontrer que cette procédure est telle que le taux de fausses découvertes 
E(F/(V +F)) <5%. Ici, F est le nombre (aléatoires) de fausses découvertes 
et V est le nombre (aléatoire) de vraies découvertes. Quand aucune hypothèse 
n’est rejetée, on définit F/(V + F) = 0. La règle de Bonferroni, en revanche, 
contrôle un autre critère : la probabilité de faire au moins une fausse découverte, 
P(V>1)<5%. 

Jusqu’ici, on a discuté les fausses découvertes, c’est-à-dire les gènes fausse- 
ment identifiés comme étant impliqués dans la maladie. Dans la planification 
d’une étude génétique, le but est pourtant de faire de vraies découvertes, c’est- 
à-dire d’identifier les gènes réellement responsables du risque. Les gènes sont 
d'autant plus faciles à trouver que l’effet normalisé 


V2NSsNulTm — Ts] 
(ru (1 = rM)Ns + Nurs(l = Ts)) 








nie 


est grand. Mais, dans un scénario comme le nôtre, on ne peut pas s’attendre 
à un grand effet. Les mutations silencieuses augmentent de manière équitable 
aussi bien ty que rs et donc aussi oc. À cela s’ajoute des mutations neutres 
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Figure 6.3 — La puissance en fonction de Nu + Ns. Dans les deux panneaux en haut, 
on regarde une étude avec Ny = Ns, dans les deux panneaux en bas, Ny = 1000 
reste constant. Dans les panneaux à gauche, la puissance est exprimée en probabilités, 
à droite en forme de quantiles normaux (des probits). 
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qui ont la même influence. Elles sont elles aussi réparties équitablement entre 
les deux cohortes et diminuent l'effet normalisé. On pourrait essayer de dis- 
tinguer les mutations neutres des mutations inactivantes, mais cela demande 
des connaissances plus détaillées, par exemple la séquence ADN. En fonction 
de l'effet normalisé 7, on peut calculer la probabilité du rejet de l’hypothèse 
nulle, c’est-à-dire la probabilité d’une vraie découverte. Cette caractéristique 
est dénommée la puissance et vérifie puissance(n) — 1 — G(n) où B(7) est la pro- 
babilité d’une erreur de deuxième espèce, l’erreur qui consiste à ne pas rejeter 
l'hypothèse nulle lorsque l’action correcte serait le rejet. Il est facile de calculer 
B(n) pour tout test qui rejette l'hypothèse nulle si [S|/VV > C. On trouve 


B(n) —  P(on ne rejette pas, même si 7 Z 0) 
BUC == BeC= 


La figure 6.3 illustre la puissance en fonction de la taille Nas + Ns de l'étude. 

On constate une forte dépendance de la puissance des valeurs de xx et Ts. 
Si les deux sont proches, par exemple, pour Ty — rs = 0,01 l'effet est difficile 
à détecter. On constate également qu’une forte fréquence de mutations neutres 
et silencieuses rend la puissance plus faible. Ainsi, x = 0,25, ns = 0,20 est 
plus difficile à détecter que rx = 0,15, ms = 0,10. 





6.4 Exercices 


1. Une suite de 18 acides aminés a été déterminée pour deux espèces, les 
humains et les souris. Le tableau ci-dessous montre les deux suites : 


Humain Met Lys Try Thr Ser Tyr Ile Leu Ala 
Souri Met Asn Ala Thr His Cys Ile Leu Ala 
Humain Phe Gln Leu Cys Ile Val Leu Gly Ser 
Souri Leu Gin Leu Phe Leu Met Ala Val Ser 





Quel est le taux À de changement si on suppose un taux de substitution 
constant et si on sait que les deux espèces se sont séparées il y a 80 x 106 
années. 


2. Chez les primates, la protéine B-globine possède 146 acides aminés. Le 
tableau suivant représente le nombre estimé de différences parmi deux 
couples de primates en fonction de la durée de leur séparation : 


Différence du temps Nombre d’acides aminés 


(millions années) différents 
85 25.5 
60 24 
42 6.25 
40 6 
30 2.5 


15 1 
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À l’aide de ces données, estimez le taux moyen de subsitution À. 


. Soit les séquences d'ADN S1 — ATGC et $2 — AGCT. Déterminer le 
meilleur alignement ainsi que le score associé à l’aide de l’algorithme de 
Needleman & Wunsch. 


. Afin de faire une étude rétrospective, on considère cent individus atteints 
de la maladie (Ny = 100), et cent autres individus sains (Ns = 100). 
Pour un gène spécifique, nous avons mesuré les nombres d’allèles mutés 
dans les deux cohortes, ny = 60 et ns = 40. 


(a) Identifiez si ce gène est un gène « à risque » au niveau à = 5 %. 


(b) Supposons qu’il y a N — 20000 gènes en total à tester, comment 
pourriez vous améliorer votre test ? 
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